3 个月前
DiffuseVAE:从低维隐空间实现高效、可控且高保真的生成
Kushagra Pandey, Avideep Mukherjee, Piyush Rai, Abhishek Kumar

摘要
扩散概率模型在多个具有挑战性的图像合成基准测试中已展现出当前最优的生成效果,但其仍存在低维可解释潜在空间缺失以及生成速度较慢的问题。相比之下,标准变分自编码器(VAEs)通常具备低维潜在空间,但生成样本的质量较差。为此,我们提出了一种名为DiffuseVAE的新颖生成框架,该框架将变分自编码器嵌入扩散模型的架构中,并利用这一结构设计出新型的条件参数化方式用于扩散模型。实验表明,所提出的模型能够为扩散模型引入由VAE推断出的低维潜在代码,该代码可用于后续任务,如可控图像合成。此外,该方法在无需显式优化的前提下,显著改善了标准无条件DDPM/DDIM模型在生成速度与质量之间的权衡关系(例如,在CelebA-HQ-128基准上,使用10步反向过程时,FID得分由标准DDIM的34.36提升至16.47)。同时,该模型在CIFAR-10和CelebA-64等标准图像合成基准上的生成质量达到当前最先进水平,且优于大多数基于VAE的现有方法。最后,我们验证了所提方法对条件信号中不同类型噪声具有内在的泛化能力。为确保结果可复现,我们的源代码已公开发布于:https://github.com/kpandey008/DiffuseVAE。