3 个月前

通过多分辨率扩散模型缓解图像生成中的失真问题

Qihao Liu, Zhanpeng Zeng, Ju He, Qihang Yu, Xiaohui Shen, Liang-Chieh Chen
通过多分辨率扩散模型缓解图像生成中的失真问题
摘要

本文提出了一种针对扩散模型的创新性改进方法,通过引入一种新型多分辨率网络(Multi-Resolution Network)与时间依赖层归一化(Time-Dependent Layer Normalization, TD-LN),显著提升了模型性能。扩散模型因其在高保真图像生成任务中的出色表现而备受关注。尽管传统方法主要依赖卷积神经网络结构的U-Net架构,但近年来基于Transformer的设计在性能与可扩展性方面展现出更优潜力。然而,Transformer架构通过“分块”(patchification)方式对输入数据进行token化处理,其自注意力机制的计算复杂度随token数量呈二次增长,导致在视觉保真度与计算开销之间存在权衡。较大的分块尺寸虽能提升注意力计算效率,却难以捕捉精细的视觉细节,从而引发图像失真问题。为解决上述挑战,本文提出在扩散模型中引入多分辨率网络(DiMR),该框架通过在多个分辨率层级上逐步优化特征表示,实现从低分辨率到高分辨率的细节逐级增强。此外,本文还提出时间依赖层归一化(TD-LN),一种参数高效的方法,通过在层归一化中引入时间相关参数,有效注入时间信息,从而提升模型生成质量。所提方法在类别条件下的ImageNet图像生成基准测试中得到验证,其中DiMR-XL系列模型在ImageNet 256×256和512×512图像生成任务上分别取得了1.70和2.89的FID分数,刷新了当前最优性能记录。项目主页:https://qihao067.github.io/projects/DiMR