17 天前

变分扩散模型

Diederik P. Kingma, Tim Salimans, Ben Poole, Jonathan Ho
变分扩散模型
摘要

基于扩散的生成模型在视觉上呈现出令人印象深刻的合成能力,但它们是否也能成为优秀的基于似然(likelihood-based)的模型?我们对此给出了肯定的回答,并提出了一类新型的基于扩散的生成模型,在标准图像密度估计基准上取得了当前最优的似然性能。与现有的其他扩散模型不同,我们的方法能够高效地将噪声调度(noise schedule)与模型其余部分联合优化。我们发现,变分下界(Variational Lower Bound, VLB)在扩散数据的信噪比(signal-to-noise ratio, SNR)表达下可简化为一个极为简洁的形式,从而深化了我们对该模型类的理论理解。基于这一洞察,我们证明了文献中若干模型之间的等价性。此外,我们进一步揭示:连续时间下的VLB仅在噪声调度两端的信噪比处依赖于调度本身,其余部分保持不变。这一性质使我们能够学习一个最小化VLB估计器方差的噪声调度,从而显著加速优化过程。结合上述理论进展与网络架构的改进,我们在图像密度估计基准上实现了当前最优的似然性能,超越了多年来长期主导该领域的自回归模型,且优化速度通常显著更快。此外,我们还展示了如何将该模型应用于bits-back压缩方案,并实现了接近理论最优的无损压缩率。相关代码已开源,地址为:https://github.com/google-research/vdm。