
要約
生成モデルにおける根本的な課題が依然として存在している:反復的な拡散モデルは優れた忠実度を達成するが、それに伴い著しい計算コストを要する一方で、効率的な少数ステップ型アプローチは品質のハードな上限に縛られている。生成ステップ数と出力品質のこの対立は、無限小の動的挙動(PF-ODE)または直接的な終端予測にのみ焦点を当てた制約的な学習目的に起因する。本研究では、任意の有限時間区間における状態遷移を解析的に定義する、正確な連続時間ダイナミクス方程式を導入することで、この課題に取り組む。これにより、任意のステップ数に適応可能な新たな生成枠組み「遷移モデル(Transition Models, TiM)」が提案される。TiMは、単一のジャンプから細粒度な修正まで、生成軌道を滑らかに遷移可能である。パラメータ数はわずか8.65億(865M)でありながら、SD3.5(80億パラメータ)やFLUX.1(120億パラメータ)といった最先端モデルを、評価されたすべてのステップ数において上回る性能を達成している。特に、従来の少数ステップ生成モデルとは異なり、TiMはサンプリング予算の増加に伴い品質が単調に向上する特性を示す。さらに、本研究で提案するネイティブ解像度戦略を採用することで、TiMは最大4096×4096解像度において優れた忠実度を実現している。