17 天前

具有学习自适应噪声的扩散模型

Subham Sekhar Sahoo, Aaron Gokaslan, Chris De Sa, Volodymyr Kuleshov
具有学习自适应噪声的扩散模型
摘要

扩散模型作为生成高质量图像的强大算法,近年来受到广泛关注。这类算法的核心在于扩散过程——一组将数据逐步转化为噪声的方程,其设计对模型性能具有显著影响。本文探讨了是否能够从数据中学习扩散过程。我们的研究基于贝叶斯推断框架,旨在通过将学习到的扩散过程视为近似变分后验,从而提升对数似然估计的准确性,进而获得更紧的似然下界(即ELBO)。长期以来,一个普遍假设认为ELBO对噪声过程具有不变性;而本文的工作打破了这一假设,并提出多变量可学习自适应噪声(Multivariate Learned Adaptive Noise, MULAN),一种能够根据不同图像区域以不同速率施加噪声的可学习扩散过程。具体而言,我们的方法依赖于一个依赖于数据的多变量噪声调度机制,从而确保ELBO不再像以往方法那样对噪声调度的选择保持不变。实验结果表明,MULAN在CIFAR-10和ImageNet数据集上的密度估计任务中达到了新的最先进水平,同时将训练步数减少了50%。项目主页提供完整代码、博客文章及视频教程:https://s-sahoo.com/MuLAN