17 天前
简单扩散模型(SiD2):在ImageNet512上实现1.5 FID,采用像素空间扩散机制
Emiel Hoogeboom, Thomas Mensink, Jonathan Heek, Kay Lamerigts, Ruiqi Gao, Tim Salimans

摘要
潜在扩散模型(Latent Diffusion Models)已成为实现高分辨率图像生成中大规模扩展扩散模型的主流选择。相较于在像素空间中端到端训练的模型,潜在空间模型通常被认为在效率和高分辨率图像质量方面更具优势。然而,本文对这些观点提出质疑,并证明像素空间模型在图像质量和计算效率方面均可与潜在空间模型相媲美,甚至在ImageNet512上实现了1.5的FID得分,在ImageNet128、ImageNet256和Kinetics600上取得了新的最优(SOTA)性能。本文提出了一种简单而有效的策略,用于将端到端的像素空间扩散模型扩展至高分辨率。具体方法包括:1)采用Sigmoid损失加权机制(Kingma & Gao, 2023),并配合我们设定的超参数;2)使用一种简化且内存高效的网络架构,减少跳接连接(skip-connections)的数量;3)在模型扩展时,优先通过较少参数实现对高分辨率图像的高效处理,而非在低分辨率下堆叠更多参数。结合指导间隔(guidance intervals)策略,我们构建了一类新型像素空间扩散模型,命名为“更简扩散模型”(Simpler Diffusion, SiD2)。