相比之下,GPT-4 是一个最先进的系统,它不仅能够创建文字,还能响应一个人的简单书面命令来描述图像。例如,当展示一张拳击手套挂在一侧有球的木制跷跷板上的照片时,一个人可以问如果手套掉落会发生什么,GPT-4 会回答说它会击中跷跷板并导致球飞了起来。
这一热闹的发布结束了数月来对 AI 程序的炒作和期待,该程序被称为大型语言模型,早期测试人员声称该程序在推理和学习新事物的能力方面非常先进。事实上,公众已经对该工具进行了预览:微软周二宣布,上个月发布的 Bing AI 聊天机器人一直在使用 GPT-4。
开发人员在周二的博客文章中承诺,该技术可以进一步彻底改变工作和生活。但这些承诺也加剧了人们对人们将如何竞争外包给精巧机器的工作或信任他们在网上看到的内容的准确性的担忧。
旧金山实验室的官员表示, GPT-4 跨文本和图像的“多模态”训练将使其能够跳出聊天框,更充分地模拟色彩和图像的世界,在“高级推理能力”方面超越 ChatGPT。 一个人可以上传一张图片,GPT-4 可以为他们添加字幕,描述物体和场景。
但由于担心滥用,该公司推迟了其图像描述功能的发布,而 OpenAI 订阅服务 ChatGPT Plus 成员可用的 GPT-4 版本仅提供文本。
OpenAI 政策研究员桑迪尼·阿加瓦尔 (Sandhini Agarwal) 在周二的一次简报会上告诉《华盛顿邮报》,该公司暂缓该功能是为了更好地了解潜在风险。她说,举个例子,该模型可能能够查看一大群人的图像,并提供关于他们的已知信息,包括他们的身份——一个可能用于大规模监控的面部识别用例。(OpenAI 发言人 Niko Felix 表示,该公司计划“实施保障措施以防止识别个人身份。”)
OpenAI 在其博客文章中表示,GPT-4 仍然犯了以前版本的许多错误,包括“幻觉”胡说八道、延续社会偏见和提供糟糕的建议。它还缺乏对大约 2021 年 9 月之后发生的事件的了解,当时其训练数据已最终确定,并且“不从经验中学习”,限制了人们教它新事物的能力。