9 天前
基于上下文预测的扩散模型图像合成性能提升
Ling Yang, Jingwei Liu, Shenda Hong, Zhilong Zhang, Zhilin Huang, Zheming Cai, Wentao Zhang, Bin Cui

摘要
扩散模型是一类新兴的生成模型,显著推动了图像生成技术的发展,在图像质量与多样性方面达到了前所未有的水平。现有的扩散模型主要通过在空间维度上施加像素级或特征级的约束,从被破坏的图像中重建原始输入图像。然而,这种基于点的重建方式可能无法充分保留每个预测像素或特征与其邻域上下文之间的关联,从而影响基于扩散的图像合成效果。作为自动监督信号的强大来源,上下文信息在表示学习领域已得到广泛研究。受此启发,我们首次提出ConPreDiff,通过引入上下文预测机制来提升基于扩散的图像合成性能。在训练阶段,我们在扩散去噪模块的末端显式引入一个上下文解码器,使每个空间位置能够预测其邻域上下文(即多尺度特征、标记或像素),从而增强模型对局部语义关系的建模能力;而在推理阶段,该解码器被移除,不引入额外参数。通过这一设计,每个点在重建过程中能够更好地保留其与邻域上下文的语义关联,实现更准确的生成。ConPreDiff所提出的这一新范式具有良好的通用性,可适配任意离散与连续的扩散主干网络,且在采样过程中无需增加额外参数。我们在无条件图像生成、文本到图像生成以及图像修复等多个任务上进行了大量实验。结果表明,ConPreDiff在各项任务中均显著优于现有方法,并在MS-COCO数据集上实现了新的SOTA(state-of-the-art)文本到图像生成性能,零样本FID得分为6.21。