17日前

生成のための表現アライメント：拡散Transformerの訓練は、あなたが思っているよりも簡単です

Yu, Sihyun, Kwak, Sangkyung, Jang, Huiwon, Jeong, Jongheon, Huang, Jonathan, Shin, Jinwoo, Xie, Saining

要約

最近の研究により、（生成系）拡散モデルにおけるノイズ除去プロセスが、モデル内部に意味のある（判別的）表現を生み出すことが示されている。ただし、こうした表現の品質は、近年の自己教師学習手法によって得られる表現にはまだ及ばない。本研究では、大規模な拡散モデルの生成性能を向上させるうえで、これらの表現を効果的に学習することが主な課題であると主張する。さらに、拡散モデルに依存して自ら表現を学習させるのではなく、高品質な外部視覚表現を導入することで、学習の負担を軽減できると示唆する。これを検証するために、我々はシンプルな正則化手法である「REPA（Representation Alignment）」を提案する。この手法は、ノイズ付き入力の隠れ状態の投影を、外部の事前学習済み視覚エンコーダから得られたクリーン画像表現と一致させるものである。その結果は顕著である：DiTやSiTといった代表的な拡散モデルおよびフローに基づくトランスフォーマーに適用したところ、学習効率と生成品質の両面で顕著な向上が見られた。たとえば、本手法を用いることでSiTの学習速度が17.5倍以上に加速され、700万ステップ学習したSiT-XLモデルの性能（分類器フリー・ガイド付きを除く）を40万ステップ未満で達成できた。生成品質の観点からも、分類器フリー・ガイド付きのガイド間隔を用いた場合、FIDスコア1.42という最先端の結果を達成した。