
摘要
我们提出离散预测-校正扩散模型(Discrete Predictor-Corrector diffusion models, DPC),将高斯扩散模型中的预测-校正采样器扩展至离散场景。预测-校正采样器是一类用于扩散模型的采样方法,相较于传统的祖先采样器,其通过马尔可夫链蒙特卡洛(MCMC)方法对中间扩散状态的采样分布进行校正,从而提升生成质量。在DPC中,原存在于连续空间中的朗之万校正(Langevin corrector)因在离散空间中无直接对应形式,被替换为由学习得到的校正核定义的离散MCMC转移过程。该校正核在训练过程中被优化,以确保校正步骤在分布意义上渐近收敛至中间扩散状态的正确边缘分布。借助DPC框架,我们以离散扩散的视角重新审视了近期基于Transformer的非自回归生成模型,发现DPC能够有效缓解因视觉token并行采样所导致的解码误差累积问题。实验结果表明,DPC在ImageNet上的类别条件图像生成任务中,显著优于现有的离散潜在空间模型,并在标准评价指标及用户偏好研究中超越了连续扩散模型与生成对抗网络(GANs)。