3ヶ月前
拡散モデルの学習ダイナミクスの分析と改善
Tero Karras, Miika Aittala, Jaakko Lehtinen, Janne Hellsten, Timo Aila, Samuli Laine

要約
現在、拡散モデル(Diffusion models)は、大規模データセットへのスケーラビリティに優れるため、データ駆動型画像合成分野を支配している。本論文では、高レベルな構造を変更せずに、一般的に用いられるADM拡散モデルアーキテクチャにおける不均一かつ非効率な学習の原因を特定し、それらを是正する。訓練過程においてネットワーク活性化値および重みの大きさが制御不能に変化し、不均衡が生じることに着目し、期待値の観点から活性化値、重み、更新量の大きさを維持するようにネットワーク層を再設計した。このアプローチを体系的に適用することで、観測されたドリフトおよび不均衡が解消され、計算量を同等に保ったまま、著しく性能の高いネットワークが得られた。本研究の改良により、ImageNet-512画像合成において従来のFIDスコア2.41という記録が1.81まで改善され、高速な決定論的サンプリングを用いて達成された。また、独立した貢献として、学習完了後に指数移動平均(EMA)パラメータを後処理的に設定する手法を提案する。これにより、複数回の学習実行を繰り返すコストなしにEMAの長さを精密に調整可能となり、ネットワークアーキテクチャ、学習時間、ガイドランスケーリングとの間で予期せぬ相互作用が明らかになった。