Visual ChatGPT：GPT-4 推出前的临时解决方案

319次阅读

ChatGPT 不久前推出，开启了生成人工智能行业的新纪元。随着聊天机器人的成名和成功，更多的人工智能工具应运而生。微软已采取重要步骤来改进生成式 AI 工具，尤其是在过去几年中。不幸的是， ChatGPT是一种基于文本的语言模型，它不具备与 DALL-E 2 或Wombo Dream相同的能力。但是，随着 Visual ChatGPT 的推出，它发生了变化。

什么是 Visual ChatGPT？

ChatGPT 是一个纯文本聊天机器人，不具备生成图像或视频的能力，预计 GPT-4 会改变这一点。但是，Visual ChatGPT 可帮助您生成、修改或裁剪图像。它结合了ChatGPT和其他 VFM的功能，例如Stable Diffusion，连接 ChatGPT 和一系列 Visual Foundation Models 以在聊天期间发送和接收图像。

换句话说，Visual ChatGPT 帮助用户从文本提示中生成图像。它缺少 Stable Diffusion 等其他 AI 工具所具有的功能，而现在，在某种程度上，它是完整的。

“我们没有从头开始训练新的多模式 ChatGPT，而是直接基于ChatGPT构建 Visual ChatGPT ，并结合了各种 VFM，”微软表示。

GPU内存使用情况？

研究人员还在官方 GitHub 页面上提供了 GPU 内存使用统计数据。它需要很高的 GPU 和计算能力。您将在下面找到每个视觉基础模型的 GPU 内存使用情况：

基础模型	内存使用 (MB)
图片编辑	6667
图片说明	1755
T2I	6677
canny2image	5540
line2image	6679
hed2image	6679
scribble2image	6679
姿态图像	6681
BLIPVQA	2709
seg2image	5540
深度2图像	6677
正常2图像	3974
指导像素2像素	2795