Chat GPT-3风靡全球,但深度学习语言模型仅生成文本。Braun 将 GPT-3 描述为“多模式”,提供超越文本的世代。布劳恩 3 月 9 日在德国举行的 AI 活动上说:“我们将在下周推出 GPT-4,在那里我们将拥有提供完全不同可能性的多模态模型——例如视频。”
生成多模式内容
聊天 GPT-4 可能不仅会生成视频,还会生成图像和音频剪辑。到目前为止,AI 图像生成器与 Chat GPT 等聊天机器人是分开的。但人们对可以生成不同格式内容的下一代模型的能力越来越感兴趣。
“我们谈论的 AI 模型可以同时理解文本、图像和声音,并使用它们来了解周围的世界并与之交互,”Tristan Wolff在Medium 上写道。
微软已经提出了一种以不同格式运行的多模态语言模型,称为 Kosmos-1。
在 Kosmos-1 演示中,AI 可以读取图像和照片。例如,一张显示 10 点 10 分的时钟图片被输入到 AI 中,问题是“现在几点?” 人工智能回答说,“大钟上的 10 点 10 分。”
它还可以告诉观众女性留着什么特定类型的发型,或者它可以识别电影海报并可以告诉用户该电影何时上映。“Kosmos-1 使用文本和图像信息来回答问题,赋予它前所未有的‘认知能力’,”Wolff 补充道。
“iPhone时刻”
在德国举行的“AI in Focus — Digital Kickoff”活动期间,微软德国首席执行官 Marianne Janik 加入了 Braun,她将 ChatGPT 描述为“iPhone 时刻”。她说这不是要更换工作,而是要以与以前不同的方式完成重复性任务。
“中断并不一定意味着失业,”她说。“需要很多专家才能利用人工智能增值。”
Chat GPT 已广受欢迎,成为历史上增长最快的消费者应用程序,用户数达到 1 亿。
同样运营 DALL-E 的 OpenAI 受到其联合创始人埃隆马斯克的批评,埃隆马斯克于 2018 年离开公司。
“OpenAI 最初是作为一个开源(这就是我将其命名为“Open”AI 的原因)、非营利性公司创建的,以作为对谷歌的制衡,但现在它已经成为一个闭源的、最大利润的公司,由微软有效控制”他在 2 月 17 日写道。“这根本不是我想要的。”