HyperAIHyperAI

Command Palette

Search for a command to run...

生成のための表現アライメント:拡散Transformerの訓練は、あなたが思っているよりも簡単です

概要

最近の研究により、(生成系)拡散モデルにおけるノイズ除去プロセスが、モデル内部に意味のある(判別的)表現を生み出すことが示されている。ただし、こうした表現の品質は、近年の自己教師学習手法によって得られる表現にはまだ及ばない。本研究では、大規模な拡散モデルの生成性能を向上させるうえで、これらの表現を効果的に学習することが主な課題であると主張する。さらに、拡散モデルに依存して自ら表現を学習させるのではなく、高品質な外部視覚表現を導入することで、学習の負担を軽減できると示唆する。これを検証するために、我々はシンプルな正則化手法である「REPA(Representation Alignment)」を提案する。この手法は、ノイズ付き入力の隠れ状態の投影を、外部の事前学習済み視覚エンコーダから得られたクリーン画像表現と一致させるものである。その結果は顕著である:DiTやSiTといった代表的な拡散モデルおよびフローに基づくトランスフォーマーに適用したところ、学習効率と生成品質の両面で顕著な向上が見られた。たとえば、本手法を用いることでSiTの学習速度が17.5倍以上に加速され、700万ステップ学習したSiT-XLモデルの性能(分類器フリー・ガイド付きを除く)を40万ステップ未満で達成できた。生成品質の観点からも、分類器フリー・ガイド付きのガイド間隔を用いた場合、FIDスコア1.42という最先端の結果を達成した。


AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助
すぐに使える GPU
最適な料金体系

HyperAI Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています