Command Palette
Search for a command to run...
Noam Issachar Guy Yariv Sagie Benaim Yossi Adi Dani Lischinski Raanan Fattal

摘要
扩散Transformer模型能够生成具有惊人保真度和细节的图像,但由于自注意力机制随图像标记数量呈二次方增长,因此在超高清分辨率下训练仍极为昂贵。本文提出一种全新的、无需训练的方法——动态位置外推(Dynamic Position Extrapolation, DyPE),使预训练的扩散Transformer模型能够在远超其训练数据分辨率的情况下合成图像,且无需额外的采样成本。DyPE利用扩散过程固有的频谱演化特性:低频结构在早期快速收敛,而高频细节则需要更多步骤才能逐步恢复。具体而言,DyPE在每一步扩散过程中动态调整模型的位置编码,使其频率谱与当前生成阶段相匹配。该方法使我们能够生成远超训练分辨率的图像,例如在FLUX模型上实现1600万像素的图像生成。在多个基准测试中,DyPE均显著提升性能,在超高清图像生成任务中达到当前最优水平,且在更高分辨率下优势更加明显。项目主页详见:https://noamissachar.github.io/DyPE/。