17 天前

生成任务中的表征对齐:训练扩散Transformer比你想象的更容易

Yu, Sihyun, Kwak, Sangkyung, Jang, Huiwon, Jeong, Jongheon, Huang, Jonathan, Shin, Jinwoo, Xie, Saining
生成任务中的表征对齐:训练扩散Transformer比你想象的更容易
摘要

近期研究表明,生成式扩散模型中的去噪过程能够在模型内部诱导出具有语义意义(判别性)的表示,尽管这些表示的质量仍不及近年来自监督学习方法所获得的表示。我们认为,制约大规模扩散模型生成能力训练效率的主要瓶颈之一,在于如何有效学习这些表示。此外,若能引入高质量的外部视觉表示,而非完全依赖扩散模型自身独立学习,将显著降低训练难度。为此,我们提出一种简单直接的正则化方法——表示对齐(Representation Alignment, REPA),该方法将去噪网络中噪声输入隐藏状态的投影,与来自外部预训练视觉编码器的干净图像表示进行对齐。实验结果令人瞩目:该简单策略在主流的扩散模型与基于流的变换器(如DiTs和SiTs)上均显著提升了训练效率与生成质量。例如,我们的方法可使SiT模型的训练速度提升超过17.5倍,在不到40万步的训练时间内即达到原本需700万步训练的SiT-XL模型的性能(不使用分类器自由引导)。在最终生成质量方面,结合分类器自由引导与引导间隔策略,我们的方法在FID指标上取得了1.42的先进水平,达到当前最优结果。

生成任务中的表征对齐:训练扩散Transformer比你想象的更容易 | 最新论文 | HyperAI超神经