Command Palette

Search for a command to run...

2ヶ月前

Pref-GRPO:安定したテキストto画像強化学習のためのペアワイズ・プレファレンス報酬ベースのGRPO

Yibin Wang Zhimin Li Yuhang Zang Yujie Zhou Jiazi Bu Chunyu Wang Qinglin Lu Cheng Jin Jiaqi Wang

Pref-GRPO:安定したテキストto画像強化学習のためのペアワイズ・プレファレンス報酬ベースのGRPO

要約

最近の進展により、テキストから画像(T2I)生成の性能向上に向けたGRPOに基づく強化学習手法およびベンチマークの重要性が浮き彫りになっている。しかし、現在の手法では、生成画像のスコア評価に点ごとの報酬モデル(RM)を用いることが多く、報酬の悪用(reward hacking)のリスクにさらされている。本研究では、画像間のスコア差が微小であっても正規化後にその差が拡大され、架空の優位性が生じることで、モデルが微小な利益に過剰に最適化し、最終的に画像生成プロセスが不安定化する原因となっていることを明らかにした。これを解決するため、本研究では、スコア最大化からペアワイズの好み適合(preference fitting)への最適化目標の転換を実現する「Pref-GRPO」という、ペアワイズ好み報酬に基づくGRPO手法を提案する。Pref-GRPOでは、各グループ内で画像をペアで比較し、好みRMを用いて勝率を算出し、これを報酬信号として利用する。広範な実験により、Pref-GRPOが微細な画像品質の差を明確に区別でき、より安定した優位性を提供し、報酬の悪用を効果的に軽減することが確認された。さらに、既存のT2Iベンチマークは評価基準が粗いという制約があり、モデルの包括的な評価を妨げている。この問題を解決するため、5つの主要テーマと20のサブテーマを含む600のプロンプトを有する統合的T2Iベンチマーク「UniGenBench」を導入した。本ベンチマークは、10の主要基準と27のサブ基準を用いて意味的整合性を評価し、多モーダル大規模言語モデル(MLLM)を活用してベンチマークの構築と評価を実施した。本研究のベンチマークにより、オープンソースおよびクローズドソースのT2Iモデルの強みと弱みが明らかとなり、同時にPref-GRPOの有効性も検証された。

AI で AI を構築

アイデアからローンチまで — 無料の AI 共同コーディング、すぐに使える環境、最適価格の GPU で AI 開発を加速。

AI 共同コーディング
すぐに使える GPU
最適価格
今すぐ始める

Hyper Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています
Pref-GRPO:安定したテキストto画像強化学習のためのペアワイズ・プレファレンス報酬ベースのGRPO | 論文 | HyperAI超神経