OpenAI 的 GPT-4 是一种更安全、更有用的能够理解图像的 ChatGPT

502次阅读

没有评论

2023 年 3 月 14 日的原始文章：

根据 OpenAI 的说法，GPT-4 比以往任何人工智能系统都“更具创造性和协作性”，拥有更广泛的知识基础，更善于解决问题。作为一个多模式系统，除了文本之外，它还接受图像作为输入。

根据 OpenAI 的说法，GPT-4 是需要结构化问题解决的任务的“突破”。例如，GPT-4 可以提供分步说明来回答有关如何清洁水族箱的问题。在模拟律师考试中，GPT-4 预计得分在考试的前 10%，而GPT-3.5得分在后 10%。

OpenAI 的 GPT-4 是一种更安全、更有用的能够理解图像的 ChatGPT

GPT-4 可以处理超过 25,000 个单词，适合生成更大的文档和分析。GPT-4 的数据库将于 2021 年 9 月结束，模型不会从自己的经验中学习。据 OpenAI 称，GPT 3.5 是新系统的首次试运行。

OpenAI 表示，新的 AI 系统直接基于从对抗性测试程序中吸取的经验教训和对ChatGPT的反馈。据说它在真实性和可操作性方面明显优于现有系统，尽管它“远非完美”。

GPT-4 在常见的机器学习基准测试中也比其前身高出 16%，在多语言任务上比 GPT 3.5 高出 15%。

OpenAI 表示，它还开发了新方法来预测 GPT-4 在某些领域的性能，所使用的模型训练的计算量仅为 GPT-4 的千分之一。

在对 AI 功能的预测中，OpenAI 看到了一个重要的安全方面，鉴于 AI 的潜在影响，该方面没有得到充分解决。OpenAI 写道：“我们正在加大力度开发方法，为社会提供更好的未来系统预期指导，我们希望这成为该领域的共同目标。”

OpenAI 也开始使用 GPT-4 来帮助人类评估 AI 输出。它说，这是其先前宣布的调整战略的第二阶段。

GPT-4 可以处理视觉输入

GPT-4 最明显的新特性是它能够将图像作为输入进行处理。例如，它可以仅使用图像输入来解释模因或主题的独特性，它可以逐步分解信息图表，它可以总结科学图表或解释它们的各个方面。

在常见的基准测试中，GPT-4 已经优于现有的文本图像模型。OpenAI 表示它仍在发现 GPT-4 可以视觉解决的“新的和令人兴奋的任务”。

为了控制模型，OpenAI 依赖于 API 客户端的系统消息。在某种程度上，这些可用于确定模型响应的特征，即 GPT-4 的响应更多地是好莱坞演员的风格还是苏格拉底式的方式。

与以前的 GPT 模型类似的限制

尽管在推理和多模态方面取得了重大进展，但 GPT-4 与其前身具有相似的局限性。例如，它仍然不完全可靠，容易产生幻觉。然而，在 OpenAI 的内部对抗性真实性评估中，GPT-4 的表现平均比 GPT 3.5 高 40%，平均准确率得分在 70% 到 80% 之间。

GPT-4 还继续制造偏见或强化现有偏见——OpenAI 承认，“还有很多工作要做”。在此背景下，该公司指出了最近宣布的可定制 AI 语言模型的计划，这些模型可以反映不同用户的价值观，从而代表更大程度的意见多样性。

OpenAI 显着提高了模型不应回答的查询的安全性，因为它们违反了 OpenAI 的内容政策。与 GPT 3.5 相比，据说 GPT-4 对关键查询的回答减少了 82%。据称，针对敏感查询（例如与医学主题相关的查询）提供符合 OpenAI 政策的答案的可能性要高出 29%。

我们花了 6 个月的时间使 GPT-4 更安全、更一致。在我们的内部评估中，与 GPT-3.5 相比，GPT-4 响应不允许内容请求的可能性低 82%，产生事实响应的可能性高 40%。

开放人工智能

GPT-4 通过 ChatGPT Plus 启动，API 通过候补名单启动

OpenAI 最初将 GPT-4 提供给ChatGPT Plus的付费客户。该服务每月收费 20 美元，可在全球范围内使用。与以前的模型一样，开发人员将通过 API 获得访问权限。OpenAI 在此处提供GPT-4 候补名单。

GPT-4 的上下文长度限制在大约 8,000 个标记，或大约 25,000 个单词。还有一个版本可以处理多达 32,000 个令牌，或大约 50 页，但 OpenAI 目前限制访问。

价格为每 1k 提示令牌 0.03 美元和每 1k 完成令牌（8k）0.06 美元或每 1k 提示令牌 0.06 美元和每 1k 完成令牌（32k）0.12 美元，明显高于 ChatGPT 和 GPT 3.5 的价格。最便宜的型号 gpt-3.5-turbo，每 1000 个代币的成本仅为 0.002 美元。

当前的 OpenAI 报告没有提供有关架构（包括模型大小）、硬件、训练计算、数据集构建等的更多详细信息。OpenAI 通过竞争激烈的市场证明了这一点。

OpenAI 没有公开参数数量，也可以解释为该公司在其 PR 中不再对参数数量具有决定性的重视，因为仅此一项对模型质量没有意义，但许多人们认为确实如此。

在 GPT-4 演示的准备阶段，社交媒体中提到了一些荒谬的参数数字，以可视化 GPT-4 的性能并助长炒作。在之前的所有模型中，OpenAI 都将模型大小作为一种差异化特征进行传达。

据 OpenAI 称，GPT-4 的首批客户包括语言学习应用程序 Duolingo、计算机视觉应用程序 Be My Eyes，以及使用 GPT-4 组织其内部知识库的摩根士丹利财富管理公司。冰岛政府正在使用 GPT-4 来保护自己的语言。OpenAI 首席执行官 Sam Altman 表示：“我们已经完成了 GPT-4 的初步培训，但我们花了很长时间和大量工作才准备好发布它。”

在 OpenAI 的 GPT-4 披露之后，微软还透露 Bing Chat从一开始就在使用 GPT-4。因此，过去几周与“悉尼”互动过的任何人都可能已经对 GPT-4 的功能有了一些了解。

概括