Visual ChatGPT:GPT-4 推出前的临时解决方案

150次阅读
没有评论

ChatGPT 不久前推出,开启了生成人工智能行业的新纪元。随着聊天机器人的成名和成功,更多的人工智能工具应运而生。微软已采取重要步骤来改进生成式 AI 工具,尤其是在过去几年中。不幸的是,  ChatGPT是一种基于文本的语言模型,它不具备与 DALL-E 2 或Wombo Dream相同的能力。但是,随着 Visual ChatGPT 的推出,它发生了变化。

什么是 Visual ChatGPT?

ChatGPT 是一个纯文本聊天机器人,不具备生成图像或视频的能力,预计 GPT-4 会改变这一点。 但是,Visual ChatGPT 可帮助您生成、修改或裁剪图像。它结合了ChatGPT和其他 VFM的功能,例如Stable Diffusion,连接 ChatGPT 和一系列 Visual Foundation Models 以在聊天期间发送和接收图像。

换句话说,Visual ChatGPT 帮助用户从文本提示中生成图像。它缺少 Stable Diffusion 等其他 AI 工具所具有的功能,而现在,在某种程度上,它是完整的。

“我们没有从头开始训练新的多模式 ChatGPT,而是直接基于ChatGPT构建 Visual ChatGPT ,并结合了各种 VFM,”微软表示。

Visual ChatGPT:GPT-4 推出前的临时解决方案
信用:微软

GPU内存使用情况?

研究人员还在官方 GitHub 页面上提供了 GPU 内存使用统计数据。它需要很高的 GPU 和计算能力。您将在下面找到每个视觉基础模型的 GPU 内存使用情况:

基础模型 内存使用 (MB)
图片编辑 6667
图片说明 1755
T2I 6677
canny2image 5540
line2image 6679
hed2image 6679
scribble2image 6679
姿态图像 6681
BLIPVQA 2709
seg2image 5540
深度2图像 6677
正常2图像 3974
指导像素2像素 2795

能力

如前所述,ChatGPT 经过培训可以为用户提供基于文本的答案,但缺乏图像或视频创建。Visual ChatGPT 的能力如下:

  • 发送和接收的不仅是语言,还有图像。
  • 提供复杂的视觉问题或视觉编辑指令,需要多个 AI 模型多步骤协作。
  • 提供反馈并要求更正结果。

GPT-4 发布日期

上周,微软德国 CTO 宣布 GPT-4 将在“下周”发布。他在 3 月 9 日发表声明,这意味着新型号可能会在未来几天推出。如果不启动,OpenAI 至少会向社区介绍它。

GPT-4 将是一个多模式 LLM,能够在 GPT-3.5 的文本提示功能之上从文本提示创建图像和视频。关于Visual ChatGPT的更多信息,可以查看 官方Github页面

正文完
 
Windows12系统管理员
版权声明:本站原创文章,由 Windows12系统管理员 2023-03-14发表,共计1045字。
转载说明:除特殊说明外本站文章皆由CC-4.0协议发布,转载请注明出处。
评论(没有评论)