6 个月前

摘要

本文提出了一种针对扩散模型的创新性改进方法，通过引入一种新型多分辨率网络（Multi-Resolution Network）与时间依赖层归一化（Time-Dependent Layer Normalization, TD-LN），显著提升了模型性能。扩散模型因其在高保真图像生成任务中的出色表现而备受关注。尽管传统方法主要依赖卷积神经网络结构的U-Net架构，但近年来基于Transformer的设计在性能与可扩展性方面展现出更优潜力。然而，Transformer架构通过“分块”（patchification）方式对输入数据进行token化处理，其自注意力机制的计算复杂度随token数量呈二次增长，导致在视觉保真度与计算开销之间存在权衡。较大的分块尺寸虽能提升注意力计算效率，却难以捕捉精细的视觉细节，从而引发图像失真问题。为解决上述挑战，本文提出在扩散模型中引入多分辨率网络（DiMR），该框架通过在多个分辨率层级上逐步优化特征表示，实现从低分辨率到高分辨率的细节逐级增强。此外，本文还提出时间依赖层归一化（TD-LN），一种参数高效的方法，通过在层归一化中引入时间相关参数，有效注入时间信息，从而提升模型生成质量。所提方法在类别条件下的ImageNet图像生成基准测试中得到验证，其中DiMR-XL系列模型在ImageNet 256×256和512×512图像生成任务上分别取得了1.70和2.89的FID分数，刷新了当前最优性能记录。项目主页：https://qihao067.github.io/projects/DiMR

源 PDF