17日前
自己自身の劣化版による拡散モデルのガイド化
Tero Karras, Miika Aittala, Tuomas Kynkäänniemi, Jaakko Lehtinen, Timo Aila, Samuli Laine

要約
画像生成用拡散モデルにおける主な注目軸は、画像の品質、生成結果のばらつきの程度、および特定の条件(例えばクラスラベルやテキストプロンプト)との整合性である。一般的に用いられる「分類器フリー・ガイド付き(classifier-free guidance)」アプローチは、無条件モデルを用いて条件付きモデルをガイドすることで、プロンプトとの整合性と画像品質の両方を向上させるが、その代償として生成結果のばらつきが減少する。これらの効果は本質的に相互に絡み合っており、制御が困難である。本研究では、無条件モデルではなく、自身の小さな、訓練度の低いバージョンを用いて生成をガイドすることで、画像品質を独立して制御しつつ、ばらつきの程度を損なわずに済むという驚くべき観察を報告する。この手法により、公開されているネットワークを用いてImageNet生成において顕著な改善が得られ、64×64画像ではFID1.01、512×512画像ではFID1.25という記録を達成した。さらに、この手法は無条件拡散モデルにも適用可能であり、その品質を劇的に向上させることが示された。