3 个月前

摘要

扩散Transformer模型能够生成具有惊人保真度和细节的图像，但由于自注意力机制随图像标记数量呈二次方增长，因此在超高清分辨率下训练仍极为昂贵。本文提出一种全新的、无需训练的方法——动态位置外推（Dynamic Position Extrapolation, DyPE），使预训练的扩散Transformer模型能够在远超其训练数据分辨率的情况下合成图像，且无需额外的采样成本。DyPE利用扩散过程固有的频谱演化特性：低频结构在早期快速收敛，而高频细节则需要更多步骤才能逐步恢复。具体而言，DyPE在每一步扩散过程中动态调整模型的位置编码，使其频率谱与当前生成阶段相匹配。该方法使我们能够生成远超训练分辨率的图像，例如在FLUX模型上实现1600万像素的图像生成。在多个基准测试中，DyPE均显著提升性能，在超高清图像生成任务中达到当前最优水平，且在更高分辨率下优势更加明显。项目主页详见：https://noamissachar.github.io/DyPE/。

源 PDF 查看代码