Command Palette

Search for a command to run...

4ヶ月前

GRPO-CARE: 多モーダル推論のための一貫性を考慮した強化学習

GRPO-CARE: 多モーダル推論のための一貫性を考慮した強化学習

要約

最近の強化学習アプローチ、例えば結果監督型GRPO(Goal-Reinforced Policy Optimization)は、大規模言語モデル(LLMs)における思考連鎖推論(Chain-of-Thought reasoning)を進展させていますが、マルチモーダル大規模言語モデル(MLLMs)への適用は未探索の領域です。この研究では、MLLMの学習後処理手法に対する厳密な評価が不足している問題に対処するため、複雑な実世界のビデオを扱い、感覚と推論のバランスが求められるベンチマークSEED-Bench-R1を導入します。このベンチマークは大量の訓練データセットを提供し、3つの段階的な課題(同一分布内、異なる環境内、異なる環境タスク間)での汎化能力を評価します。SEED-Bench-R1を使用した分析により、標準的なGRPOは回答精度を向上させる一方で、しばしば推論ステップと回答間の論理性の一貫性を低下させることを見出しました。一貫性率は57.9%に過ぎませんでした。これは報酬信号が最終的な回答のみに焦点を当てているためであり、ショートカットを奨励し、厳格なKLペナルティが探査を制限しています。これを解決するために、我々はGRPO-CARE(Consistency-Aware Reinforcement Learning Framework for Goal-Reinforced Policy Optimization)という一貫性認識型強化学習フレームワークを提案します。GRPO-CAREは回答の正確さと推論の一貫性の両方を最適化し、明示的な監督なしで機能します。GRPO-CAREでは二段階報酬メカニズムが導入されています。(1) 回答の正確さに対する基本報酬と (2) 推論から回答への尤度(徐々に進化するリファレンスモデルを通じて計算され)、グループ内の他のモデルとの比較によって調整される適応的一貫性ボーナスです。この二重メカニズムにより、正確かつ論理的に一貫した推論パスに対して報酬が増幅されます。KLペナルティをこの適応ボーナスに置き換えることで、GRPO-CAREはSEED-Bench-R1において標準的なGRPOよりも優れた性能を発揮し、最も難しい評価レベルでは6.7%の性能向上と24.5%の一貫性改善が達成されました。また、多様なビデオ理解ベンチマークにおいてもモデル性能の向上が見られることから、強い転移可能性を持つことが示されています。本研究では体系的に設計されたベンチマークと一般化可能な学習後処理フレームワークを提供し、より解釈可能で堅牢なMLLMsの開発に貢献しています。

AI で AI を構築

アイデアからローンチまで — 無料の AI 共同コーディング、すぐに使える環境、最適価格の GPU で AI 開発を加速。

AI 共同コーディング
すぐに使える GPU
最適価格
今すぐ始める

Hyper Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています
GRPO-CARE: 多モーダル推論のための一貫性を考慮した強化学習 | 論文 | HyperAI超神経