6 个月前

摘要

扩散模型在图像、音频和视频生成领域取得了显著进展，但其依赖迭代采样过程，导致生成速度较慢。为克服这一局限，我们提出了一类新型模型——一致性模型（consistency models），该模型通过直接将噪声映射到数据空间，生成高质量样本。这类模型从设计上支持快速的一步生成，同时仍保留多步采样的能力，从而可在计算资源与样本质量之间灵活权衡。此外，一致性模型无需针对特定任务进行显式训练，即可实现零样本数据编辑，例如图像修复（inpainting）、着色（colorization）和超分辨率（super-resolution）等。一致性模型的训练方式有两种：既可以通过对预训练的扩散模型进行知识蒸馏来实现，也可作为独立的生成模型直接训练。通过大量实验验证，我们发现该模型在一步及少步采样场景下，显著优于现有的扩散模型蒸馏方法，在CIFAR-10数据集上实现新的最优FID分数3.55，在ImageNet 64×64数据集上达到6.20。当作为独立生成模型训练时，一致性模型成为一类全新的生成模型，其性能在标准基准测试（如CIFAR-10、ImageNet 64×64和LSUN 256×256）上超越了现有的一步生成、非对抗性生成模型，展现出强大的生成能力与应用潜力。

源 PDF