6 个月前

计算机视觉

Shengming Li Guangcong Zheng Hui Wang Taiping Yao Yang Chen Shoudong Ding Xi Li

摘要

去噪扩散概率模型（Denoising Diffusion Probabilistic Model, DDPM）通过引入一个独立的噪声感知分类器，在去噪过程的每一步提供条件梯度引导，从而实现从先验噪声到真实数据的灵活条件图像生成。然而，由于分类器仅依赖高层结构即可轻易区分尚未完全生成的图像，导致这类基于类别的梯度信息在早期便迅速衰减，进而引发条件生成过程退化为无条件生成过程的问题。为解决该问题，本文从两个角度提出两种简单而有效的方法。在采样阶段，我们引入预测分布的熵作为梯度消失程度的度量，并提出一种基于熵感知的缩放策略，以自适应地恢复条件语义引导。在训练阶段，我们设计了基于熵感知的优化目标，用以缓解分类器对噪声数据的过度自信预测问题。在 ImageNet-1000 256×256 数据集上，结合所提出的采样策略与训练后的分类器，预训练的条件与无条件 DDPM 模型分别实现了 10.89%（FID 从 4.59 降至 4.09）和 43.5%（FID 从 12.00 降至 6.78）的性能提升。相关代码已开源，地址为：https://github.com/ZGCTroy/ED-DPM。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

6 个月前

计算机视觉

Shengming Li Guangcong Zheng Hui Wang Taiping Yao Yang Chen Shoudong Ding Xi Li

摘要

去噪扩散概率模型（Denoising Diffusion Probabilistic Model, DDPM）通过引入一个独立的噪声感知分类器，在去噪过程的每一步提供条件梯度引导，从而实现从先验噪声到真实数据的灵活条件图像生成。然而，由于分类器仅依赖高层结构即可轻易区分尚未完全生成的图像，导致这类基于类别的梯度信息在早期便迅速衰减，进而引发条件生成过程退化为无条件生成过程的问题。为解决该问题，本文从两个角度提出两种简单而有效的方法。在采样阶段，我们引入预测分布的熵作为梯度消失程度的度量，并提出一种基于熵感知的缩放策略，以自适应地恢复条件语义引导。在训练阶段，我们设计了基于熵感知的优化目标，用以缓解分类器对噪声数据的过度自信预测问题。在 ImageNet-1000 256×256 数据集上，结合所提出的采样策略与训练后的分类器，预训练的条件与无条件 DDPM 模型分别实现了 10.89%（FID 从 4.59 降至 4.09）和 43.5%（FID 从 12.00 降至 6.78）的性能提升。相关代码已开源，地址为：https://github.com/ZGCTroy/ED-DPM。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供