Zhenglin Cheng Peng Sun Jianguo Li Tao Lin

要約
大規模なマルチモーダル生成モデルの最近の進展により、画像や動画生成を含むマルチモーダル生成において優れた性能が実現されている。これらのモデルは通常、拡散(diffusion)やフロー一致(flow matching)といった複数ステップのフレームワークに基づいて構築されており、推論効率に本質的な制限がある(関数評価回数:NFEが40~100回必要)。一方で、推論を高速化するための少数ステップ手法が多数提案されているが、既存の手法には明確な限界がある。代表的な知識蒸留(distillation)ベースの手法、例えばプログレッシブ蒸留やコンシステンシー蒸留は、反復的な蒸留プロセスを必要とするか、極めて少ないステップ数(4-NFE未満)では性能が著しく低下する。また、蒸留に敵対的学習(adversarial training)を組み込むことで性能を向上させる試み(例:DMD/DMD2やSANA-Sprint)は、訓練の不安定性、追加の複雑性、および補助モデルによる高GPUメモリ消費という課題を引き起こす。こうした問題に対応して、本研究では、固定された事前学習済み教師モデルを必要とせず、訓練中に標準的な敵対的ネットワークを使用しない、シンプルかつ効果的な1ステップ生成モデルの訓練フレームワーク「TwinFlow」を提案する。これは大規模かつ効率的なモデル構築に最適である。テキストから画像生成のタスクにおいて、本手法は1-NFE(1回の関数評価)でGenEvalスコア0.83を達成し、GAN損失に基づくSANA-Sprintやコンシステンシーに基づくRCGMといった強力なベースラインを上回った。特に、Qwen-Image-20Bを全パラメータで訓練し、TwinFlowを用いて少数ステップ生成器に変換することで、スケーラビリティを実証した。わずか1-NFEで、元の100-NFEモデルと同等の性能をGenEvalおよびDPG-Benchの両ベンチマークで達成し、計算コストを100倍削減しつつ、品質の低下は最小限に抑えた。プロジェクトページは以下のURLにて公開されている:https://zhenglin-cheng.com/twinflow。