6 个月前

卷积神经网络

计算机视觉

Emiel Hoogeboom Jonathan Heek Tim Salimans

摘要

目前，直接在高分辨率图像的像素空间中应用扩散模型存在较大困难。因此，现有方法通常转而采用低维潜在空间中的扩散（即潜在扩散模型），或采用多级超分辨率生成结构（称为级联生成）。然而，这些方法会为扩散框架引入额外的复杂性。本文旨在提升高分辨率图像的去噪扩散模型性能，同时尽可能保持模型结构的简洁性。研究的核心问题是：如何在高分辨率图像上训练标准的去噪扩散模型，仍能实现与上述替代方法相媲美的生成效果？本文得出四个主要结论：1）针对高分辨率图像，需对噪声调度（noise schedule）进行相应调整；2）仅需对网络架构中的特定部分进行缩放即可取得良好效果；3）在架构的特定位置引入丢弃（dropout）机制可有效提升性能；4）下采样是一种有效避免生成高分辨率特征图的策略。通过结合这些简单而高效的技术手段，本文在ImageNet数据集上实现了无需采样优化器（sampling modifiers）的扩散模型图像生成任务中的最先进性能。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

6 个月前

卷积神经网络

计算机视觉

Emiel Hoogeboom Jonathan Heek Tim Salimans

摘要

目前，直接在高分辨率图像的像素空间中应用扩散模型存在较大困难。因此，现有方法通常转而采用低维潜在空间中的扩散（即潜在扩散模型），或采用多级超分辨率生成结构（称为级联生成）。然而，这些方法会为扩散框架引入额外的复杂性。本文旨在提升高分辨率图像的去噪扩散模型性能，同时尽可能保持模型结构的简洁性。研究的核心问题是：如何在高分辨率图像上训练标准的去噪扩散模型，仍能实现与上述替代方法相媲美的生成效果？本文得出四个主要结论：1）针对高分辨率图像，需对噪声调度（noise schedule）进行相应调整；2）仅需对网络架构中的特定部分进行缩放即可取得良好效果；3）在架构的特定位置引入丢弃（dropout）机制可有效提升性能；4）下采样是一种有效避免生成高分辨率特征图的策略。通过结合这些简单而高效的技术手段，本文在ImageNet数据集上实现了无需采样优化器（sampling modifiers）的扩散模型图像生成任务中的最先进性能。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

简单扩散：面向高分辨率图像的端到端扩散模型 | 论文 | HyperAI超神经