17 天前

用于高保真图像生成的级联扩散模型

Jonathan Ho, Chitwan Saharia, William Chan, David J. Fleet, Mohammad Norouzi, Tim Salimans
用于高保真图像生成的级联扩散模型
摘要

我们证明,级联扩散模型在类别条件下的ImageNet图像生成基准任务中,无需依赖辅助图像分类器即可生成高保真度图像。级联扩散模型由一系列多阶段扩散模型构成,按分辨率逐步提升的流程生成图像:从最低分辨率的标准扩散模型开始,随后依次接入一个或多个超分辨率扩散模型,逐步上采样图像并添加更高分辨率的细节。我们发现,级联管道的生成样本质量关键取决于“条件增强”(conditioning augmentation)——这是我们提出的一种对超分辨率模型输入的低分辨率条件数据进行数据增强的方法。实验结果表明,条件增强能够有效防止级联模型在采样过程中误差的累积,从而帮助训练出性能更优的级联生成管道。在64×64、128×128和256×256分辨率下,模型分别取得了1.48、3.52和4.88的FID分数,优于BigGAN-deep;在256×256分辨率下,top-1分类准确率为63.02%,top-5分类准确率为84.06%,优于VQ-VAE-2。