Matryoshka Diffusion Models

371次阅读

Matryoshka Diffusion Models

提出了一种端到端的高分辨率图像和视频合成框架。所提出的框架使用扩散过程，可联合对多个分辨率的输入进行去噪，并使用嵌套的UNet架构，其中小规模输入的特征和参数嵌入在大规模中。该框架允许从较低分辨率到较高分辨率的逐步训练计划，从而显着改善高分辨率生成的优化。作者在各种基准测试中证明了他们的方法的有效性，包括类条件图像生成，高分辨率文本到图像和文本到视频应用。他们能够在最高1024×1024像素的分辨率下训练单个像素空间模型，证明了使用仅包含1200万个图像的CC12M数据集的强零射击泛化能力。

正文完