
摘要
扩散模型在图像、音频和视频生成领域取得了显著进展,但其依赖迭代采样过程,导致生成速度较慢。为克服这一局限,我们提出了一类新型模型——一致性模型(consistency models),该模型通过直接将噪声映射到数据空间,生成高质量样本。这类模型从设计上支持快速的一步生成,同时仍保留多步采样的能力,从而可在计算资源与样本质量之间灵活权衡。此外,一致性模型无需针对特定任务进行显式训练,即可实现零样本数据编辑,例如图像修复(inpainting)、着色(colorization)和超分辨率(super-resolution)等。一致性模型的训练方式有两种:既可以通过对预训练的扩散模型进行知识蒸馏来实现,也可作为独立的生成模型直接训练。通过大量实验验证,我们发现该模型在一步及少步采样场景下,显著优于现有的扩散模型蒸馏方法,在CIFAR-10数据集上实现新的最优FID分数3.55,在ImageNet 64×64数据集上达到6.20。当作为独立生成模型训练时,一致性模型成为一类全新的生成模型,其性能在标准基准测试(如CIFAR-10、ImageNet 64×64和LSUN 256×256)上超越了现有的一步生成、非对抗性生成模型,展现出强大的生成能力与应用潜力。