
摘要
过去十年中,深度生成模型取得了广泛的发展。然而,这些模型在同时满足三个关键要求——高质量样本生成、模式覆盖(mode coverage)以及快速采样——方面仍面临挑战。我们称这一综合性难题为“生成学习三难困境”(generative learning trilemma),因为现有模型往往需要在三者之间进行权衡取舍。特别是去噪扩散模型(denoising diffusion models)在样本质量和多样性方面表现出色,但其高昂的采样成本限制了其在众多实际应用场景中的应用。本文认为,这类模型采样速度缓慢的根本原因在于去噪步骤中对高斯分布的假设,而该假设仅在步长较小时才成立。为了实现大步长去噪,从而显著减少总的去噪步骤数,我们提出使用复杂多模态分布来建模去噪过程。为此,我们引入了去噪扩散生成对抗网络(denoising diffusion gener adversarial networks, 简称 denoising diffusion GANs),该模型通过多模态条件生成对抗网络(conditional GAN)对每一步去噪过程进行建模。通过大量实验评估,我们证明:去噪扩散 GAN 在样本质量与多样性方面可与原始扩散模型相媲美,同时在 CIFAR-10 数据集上的采样速度提升了 2000 倍。相较于传统 GAN,我们的模型展现出更优的模式覆盖能力与样本多样性。据我们所知,去噪扩散 GAN 是首个将扩散模型的采样成本降低至足以支持其在真实世界应用中低成本部署的模型。项目主页与代码地址:https://nvlabs.github.io/denoising-diffusion-gan