Matryoshka Diffusion Models
提出了一种端到端的高分辨率图像和视频合成框架。所提出的框架使用扩散过程,可联合对多个分辨率的输入进行去噪,并使用嵌套的UNet架构,其中小规模输入的特征和参数嵌入在大规模中。该框架允许从较低分辨率到较高分辨率的逐步训练计划,从而显着改善高分辨率生成的优化。作者在各种基准测试中证明了他们的方法的有效性,包括类条件图像生成,高分辨率文本到图像和文本到视频应用。他们能够在最高1024×1024像素的分辨率下训练单个像素空间模型,证明了使用仅包含1200万个图像的CC12M数据集的强零射击泛化能力。
正文完