6 个月前

计算机视觉

Emiel Hoogeboom Thomas Mensink Jonathan Heek Kay Lamerigts Ruiqi Gao Tim Salimans

摘要

潜在扩散模型（Latent Diffusion Models）已成为实现高分辨率图像生成中大规模扩展扩散模型的主流选择。相较于在像素空间中端到端训练的模型，潜在空间模型通常被认为在效率和高分辨率图像质量方面更具优势。然而，本文对这些观点提出质疑，并证明像素空间模型在图像质量和计算效率方面均可与潜在空间模型相媲美，甚至在ImageNet512上实现了1.5的FID得分，在ImageNet128、ImageNet256和Kinetics600上取得了新的最优（SOTA）性能。本文提出了一种简单而有效的策略，用于将端到端的像素空间扩散模型扩展至高分辨率。具体方法包括：1）采用Sigmoid损失加权机制（Kingma & Gao, 2023），并配合我们设定的超参数；2）使用一种简化且内存高效的网络架构，减少跳接连接（skip-connections）的数量；3）在模型扩展时，优先通过较少参数实现对高分辨率图像的高效处理，而非在低分辨率下堆叠更多参数。结合指导间隔（guidance intervals）策略，我们构建了一类新型像素空间扩散模型，命名为“更简扩散模型”（Simpler Diffusion, SiD2）。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

6 个月前

计算机视觉

Emiel Hoogeboom Thomas Mensink Jonathan Heek Kay Lamerigts Ruiqi Gao Tim Salimans

摘要

潜在扩散模型（Latent Diffusion Models）已成为实现高分辨率图像生成中大规模扩展扩散模型的主流选择。相较于在像素空间中端到端训练的模型，潜在空间模型通常被认为在效率和高分辨率图像质量方面更具优势。然而，本文对这些观点提出质疑，并证明像素空间模型在图像质量和计算效率方面均可与潜在空间模型相媲美，甚至在ImageNet512上实现了1.5的FID得分，在ImageNet128、ImageNet256和Kinetics600上取得了新的最优（SOTA）性能。本文提出了一种简单而有效的策略，用于将端到端的像素空间扩散模型扩展至高分辨率。具体方法包括：1）采用Sigmoid损失加权机制（Kingma & Gao, 2023），并配合我们设定的超参数；2）使用一种简化且内存高效的网络架构，减少跳接连接（skip-connections）的数量；3）在模型扩展时，优先通过较少参数实现对高分辨率图像的高效处理，而非在低分辨率下堆叠更多参数。结合指导间隔（guidance intervals）策略，我们构建了一类新型像素空间扩散模型，命名为“更简扩散模型”（Simpler Diffusion, SiD2）。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供