Command Palette
Search for a command to run...
Kaiwen Zheng Huayu Chen Haotian Ye Haoxiang Wang Qinsheng Zhang Kai Jiang Hang Su Stefano Ermon Jun Zhu Ming-Yu Liu

要約
オンライン強化学習(RL)は、事後訓練された言語モデルにおいて中心的な役割を果たしているが、尤度が計算不可能なため、拡散モデルへの適用は依然として困難である。最近の研究では、逆方向サンプリングプロセスを離散化することでGRPO型の学習を可能にする手法が提案されているが、これらは解法の制限、前向き・逆向きプロセスの不整合、および分類器フリー・ガイド(CFG)との複雑な統合といった根本的な課題を引き継いでいる。本研究では、フロー・マッチングを介して前向きプロセス上で拡散モデルを直接最適化する新たなオンラインRL枠組み「Diffusion Negative-aware FineTuning(DiffusionNFT)」を提案する。DiffusionNFTは、正例生成と負例生成を対比させることで、暗黙的な方策改善方向を定義し、強化学習信号を教師あり学習の目的関数に自然に組み込む。この定式化により、任意のブラックボックス解法を用いた学習が可能となり、尤度推定の必要性が不要となるだけでなく、方策最適化にサンプリング経路ではなく、クリーンな画像のみを用いればよい。頭ごなしの比較において、DiffusionNFTはFlowGRPOに比べて最大25倍の効率性を発揮し、さらにCFGを必要としない。例えば、1,000ステップ以内にDiffusionNFTはGenEvalスコアを0.24から0.98まで向上させる一方、FlowGRPOは5,000ステップ以上を要し、追加でCFGを用いる必要があるにもかかわらず、0.95にとどまる。複数の報酬モデルを活用することで、DiffusionNFTはテストされたすべてのベンチマークにおいてSD3.5-Mediumの性能を著しく向上させた。