Chat GPT-4 将让您将文本转换为视频，下周即将推出

298次阅读

Chat GPT-3风靡全球，但深度学习语言模型仅生成文本。Braun 将 GPT-3 描述为“多模式”，提供超越文本的世代。布劳恩 3 月 9 日在德国举行的 AI 活动上说：“我们将在下周推出 GPT-4，在那里我们将拥有提供完全不同可能性的多模态模型——例如视频。”

生成多模式内容

聊天 GPT-4 可能不仅会生成视频，还会生成图像和音频剪辑。到目前为止，AI 图像生成器与 Chat GPT 等聊天机器人是分开的。但人们对可以生成不同格式内容的下一代模型的能力越来越感兴趣。

“我们谈论的 AI 模型可以同时理解文本、图像和声音，并使用它们来了解周围的世界并与之交互，”Tristan Wolff在Medium 上写道。

微软已经提出了一种以不同格式运行的多模态语言模型，称为 Kosmos-1。

在 Kosmos-1 演示中，AI 可以读取图像和照片。例如，一张显示 10 点 10 分的时钟图片被输入到 AI 中，问题是“现在几点？” 人工智能回答说，“大钟上的 10 点 10 分。”

它还可以告诉观众女性留着什么特定类型的发型，或者它可以识别电影海报并可以告诉用户该电影何时上映。

“Kosmos-1 使用文本和图像信息来回答问题，赋予它前所未有的‘认知能力’，”Wolff 补充道。

在德国举行的“AI in Focus — Digital Kickoff”活动期间，微软德国首席执行官 Marianne Janik 加入了 Braun，她将 ChatGPT 描述为“iPhone 时刻”。她说这不是要更换工作，而是要以与以前不同的方式完成重复性任务。

“中断并不一定意味着失业，”她说。“需要很多专家才能利用人工智能增值。”

Chat GPT 已广受欢迎，成为历史上增长最快的消费者应用程序，用户数达到 1 亿。

同样运营 DALL-E 的 OpenAI 受到其联合创始人埃隆马斯克的批评，埃隆马斯克于 2018 年离开公司。

“OpenAI 最初是作为一个开源（这就是我将其命名为“Open”AI 的原因）、非营利性公司创建的，以作为对谷歌的制衡，但现在它已经成为一个闭源的、最大利润的公司，由微软有效控制”他在 2 月 17 日写道。“这根本不是我想要的。”

正文完

发表至：工具软件

2023-03-14

转载说明：除特殊说明外本站文章皆由CC-4.0协议发布，转载请注明出处。

微软斥资数亿美元打造 ChatGPT 超级计算机