Command Palette
Search for a command to run...
Xin Luo Jiahao Wang Chenyuan Wu Shitao Xiao Xiyan Jiang Defu Lian Jiajun Zhang Dong Liu Zheng Liu

要約
指示に従った画像編集は著しい進展を遂げているが、現行のモデルは複雑な指示に対して依然として課題を抱えており、望ましい結果を得るには複数のサンプルが必要な場合が多い。強化学習(RL)は有望な解決策を提供する可能性を秘めているものの、高精度かつ効率的な報酬信号の欠如により、画像編集への応用は大きく制限されてきた。本研究では、この障壁を克服する包括的な手法を提案する。その中心となるのは、最先端かつ専門性の高い報酬モデルの開発である。まず、編集品質に関する報酬モデルを体系的に評価できるよう、EditReward-Benchと呼ばれる包括的なベンチマークを導入する。このベンチマークを基盤として、指示に従った画像編集の品質を評価するための報酬モデル群であるEditScore(7B~72B)を構築した。精緻なデータの収集とフィルタリングにより、EditScoreは独自のVLM(視覚言語モデル)を学習したモデルと同等の性能を実現している。さらに、EditScoreの生成的性質に適した効果的な自己アンサンブル戦略を組み合わせることで、最大規模のバージョンはベンチマーク上でGPT-5を上回る性能を発揮した。次に、高精度な報酬モデルが画像編集におけるオンライン強化学習を実現する鍵であることを実証した。実験の結果、最も規模の大きなオープンソースVLMですら有効な学習信号を提供できなかった一方で、EditScoreは効率的かつ堅牢な方策最適化を可能にした。強力なベースモデルであるOmniGen2に本フレームワークを適用した結果、大幅かつ一貫した性能向上を示す最終モデルが得られた。総合的に、本研究は画像編集におけるベンチマーク評価から報酬モデルの構築、強化学習訓練への体系的アプローチを初めて提示した。その結果、高精度かつドメイン特化型の報酬モデルこそが、強化学習の潜在能力を最大限に引き出す鍵であることが示された。