
摘要
目前,直接在高分辨率图像的像素空间中应用扩散模型存在较大困难。因此,现有方法通常转而采用低维潜在空间中的扩散(即潜在扩散模型),或采用多级超分辨率生成结构(称为级联生成)。然而,这些方法会为扩散框架引入额外的复杂性。本文旨在提升高分辨率图像的去噪扩散模型性能,同时尽可能保持模型结构的简洁性。研究的核心问题是:如何在高分辨率图像上训练标准的去噪扩散模型,仍能实现与上述替代方法相媲美的生成效果?本文得出四个主要结论:1)针对高分辨率图像,需对噪声调度(noise schedule)进行相应调整;2)仅需对网络架构中的特定部分进行缩放即可取得良好效果;3)在架构的特定位置引入丢弃(dropout)机制可有效提升性能;4)下采样是一种有效避免生成高分辨率特征图的策略。通过结合这些简单而高效的技术手段,本文在ImageNet数据集上实现了无需采样优化器(sampling modifiers)的扩散模型图像生成任务中的最先进性能。