
摘要
基于得分的生成模型(Score-based Generative Models, SGMs)近期在样本质量与分布覆盖方面均展现出令人瞩目的成果。然而,这类模型通常直接在数据空间中应用,采样过程往往需要数千次网络评估,计算成本较高。为此,我们提出了一种新型方法——潜在空间得分生成模型(Latent Score-based Generative Model, LSGM),该方法在潜在空间中训练SGMs,依托变分自编码器(Variational Autoencoder, VAE)框架实现。将建模空间从数据空间转移到潜在空间,不仅使生成模型具备更强的表达能力,还能够处理非连续数据,并在更小的潜在空间中学习到更平滑的得分函数,从而显著减少网络评估次数,大幅提升采样效率。为实现LSGM在可扩展且稳定的条件下端到端训练,我们提出三项关键技术:(i)设计了一种适用于LSGM框架的新得分匹配目标函数;(ii)提出了一种新颖的得分函数参数化方式,使SGM能够聚焦于目标分布与简单标准正态分布之间的差异;(iii)通过解析推导,引入多种方差缩减技术,有效降低训练目标的方差,提升训练稳定性与收敛速度。在CIFAR-10数据集上,LSGM取得了2.10的FID分数,达到该数据集上的最先进水平,超越了所有现有生成模型的结果。在CelebA-HQ-256数据集上,LSGM在样本质量方面与以往SGMs相当,但在采样速度上提升了两个数量级。在二值图像建模任务中,LSGM在二值化OMNIGLOT数据集上实现了领先的似然性能。本项目的主页与代码已公开,详见:https://nvlabs.github.io/LSGM。