Matryoshka Diffusion Models

176次阅读
没有评论

Matryoshka Diffusion Models

提出了一种端到端的高分辨率图像和视频合成框架。所提出的框架使用扩散过程,可联合对多个分辨率的输入进行去噪,并使用嵌套的UNet架构,其中小规模输入的特征和参数嵌入在大规模中。该框架允许从较低分辨率到较高分辨率的逐步训练计划,从而显着改善高分辨率生成的优化。作者在各种基准测试中证明了他们的方法的有效性,包括类条件图像生成,高分辨率文本到图像和文本到视频应用。他们能够在最高1024×1024像素的分辨率下训练单个像素空间模型,证明了使用仅包含1200万个图像的CC12M数据集的强零射击泛化能力。

正文完
 
Windows12系统管理员
版权声明:本站原创文章,由 Windows12系统管理员 2023-10-30发表,共计273字。
转载说明:除特殊说明外本站文章皆由CC-4.0协议发布,转载请注明出处。
评论(没有评论)