VLMにおける画像選好の聴取者報酬型思考

人間の視覚的好みに合わせた堅牢で汎化可能な報酬モデルの訓練は、テキストから画像や動画を生成するモデルを人間の意図に合わせる上で不可欠です。しかし、現在の報酬モデルはしばしば汎化に失敗し、監督付き微調整(SFT)は記憶化を引き起こすため、複雑なアノテーションパイプラインが必要となります。強化学習(RL)、特にグループ相対方策最適化(GRPO)は汎化性能を向上させますが、私たちは重要な失敗モードを見つけました:モデルの推論過程が同一の出力を評価する独立した固定されたビジョン言語モデル(「リスナー」)と矛盾すると、推論精度が大幅に低下します。これを解決するために、私たちはリスナーを組み込んだGRPOフレームワークを導入しました。このフレームワークでは、リスナーが推論者の思考過程を再評価し、濃密で校正された信頼度スコアを提供することで、RLの報酬信号を形成します。これにより、推論者は正しい回答だけでなく、独立したモデルにとって説得力のある説明も生成することが促されます。私たちのリスナーシェイプ報酬スキームは、ImageRewardベンチマークで最高精度(67.4%)を達成し、大規模な人間の好みデータセットにおける外れ値(OOD)性能も大幅に向上させています(120万票で最大+6%)。また、強力なGRPOおよびSFTベースラインと比較して推論矛盾が減少しています。これらの結果は、リスナーに基づく報酬が細かい人間の好みに合わせたビジョン言語モデルの整列化において効率的かつ拡張可能な道筋であることを示しています。私たちの推論モデルは以下のURLから公開されます:https://huggingface.co/alexgambashidze/qwen2.5vl_image_preference_reasoner.