11 天前
基于熵驱动的条件扩散生成采样与训练方案
Shengming Li, Guangcong Zheng, Hui Wang, Taiping Yao, Yang Chen, Shoudong Ding, Xi Li

摘要
去噪扩散概率模型(Denoising Diffusion Probabilistic Model, DDPM)通过引入一个独立的噪声感知分类器,在去噪过程的每一步提供条件梯度引导,从而实现从先验噪声到真实数据的灵活条件图像生成。然而,由于分类器仅依赖高层结构即可轻易区分尚未完全生成的图像,导致这类基于类别的梯度信息在早期便迅速衰减,进而引发条件生成过程退化为无条件生成过程的问题。为解决该问题,本文从两个角度提出两种简单而有效的方法。在采样阶段,我们引入预测分布的熵作为梯度消失程度的度量,并提出一种基于熵感知的缩放策略,以自适应地恢复条件语义引导。在训练阶段,我们设计了基于熵感知的优化目标,用以缓解分类器对噪声数据的过度自信预测问题。在 ImageNet-1000 256×256 数据集上,结合所提出的采样策略与训练后的分类器,预训练的条件与无条件 DDPM 模型分别实现了 10.89%(FID 从 4.59 降至 4.09)和 43.5%(FID 从 12.00 降至 6.78)的性能提升。相关代码已开源,地址为:https://github.com/ZGCTroy/ED-DPM。