认识“Muse”，一种来自 GoogleAI 的文本到图像生成模型

407次阅读

在当前席卷互联网的人工智能趋势中，谷歌发布了一款名为 Muse 的新文本到图像生成工具。基于 Transformer 的 AI图像创建器能够以创纪录的速度创建高质量图像。谷歌人工智能的新工具比许多竞争对手更快、更高效。但是，这到底是什么意思？

Google Research 的一个小组将 Muse 作为一种与大多数当前模型相当的工具进行了介绍。然而，研究人员接着说，Muse 比现有的扩散模型（如 Stable Diffusion、Dalle-E 2 甚至 Google Parti）效率要高得多。然而，这个效率等级的依据是什么？

在GoogleAI的研究和广泛测试中，研究人员发现 Muse 可以更快地提供类似质量的图像。评估时，将 Muse 与 Parti-3B 和 Imagen 进行了比较。与这些竞争对手相比，Muse 能够制作出在质量、多样性和文本对齐方面与他们相匹配的图像。然而，Muse 脱颖而出的速度明显快于这些竞争对手。

与具有 3.7 秒生成时间的 Stable Diffusion 相比，Muse 有 1.3 秒的生成时间来创建图像。这是一个显着差异，使 Muse 更快。

认识“Muse”，一种来自 GoogleAI 的文本到图像生成模型

研究团队能够使用压缩的离散潜在空间和并行解码在 Muse 中实现这种速度。在文本理解方面，Muse 使用了冻结的 T5 语言模型。这意味着它会完全处理文本提示，而不是专注于某些单词或短语。这使得使用 AI 驱动的工具更容易取得成功。

Muse 还采用了一种新架构，该架构改变了调整或编辑图像的方式。这个新的图像编辑应用程序系列使使用文本提示编辑图像变得更加容易。这使得无需使用复杂的蒙版即可对生成的图像进行更改，而只需使用提示即可。

在其他人类申请人的独立测试中，Muse 图像被评为比 Stable Diffusion 1.4 更适合文本输入。这是 70.6% 的测试人员的普遍共识。测试人员还发现，在将预定义的单词合并到图像中时，Muse 的表现高于平均水平。Muse 的构图也比许多竞争对手更准确。这意味着它能够更准确地显示提示中的图像元素，即。三个酒瓶或五个黄色盒子。

认识“Muse”，一种来自 GoogleAI 的文本到图像生成模型

Muse 团队指出，根据独特的用例，存在“潜在危害”。当涉及到人工智能系统的科学工作时，这并不奇怪，尤其是当它涉及到语言和图像时。如果恶意使用，该工具可用于重现社会偏见或传播错误信息。因此，该团队决定不发布 Muse 的代码。由于 Muse 目前是封闭模型，他们还推迟发布公开可用的演示。如果您同时正在寻找一个好的图像到文本 AI 生成器，为什么不看看 ChatGPT？这种 AI 驱动的工具不仅可以帮助处理图像。

正文完