Command Palette

Search for a command to run...

1ヶ月前

BaseReward:マルチモーダル報酬モデルにおける強力なベースライン

BaseReward:マルチモーダル報酬モデルにおける強力なベースライン

要約

マルチモーダル大規模言語モデル(MLLM)の急速な進展に伴い、これらを人間の好みに整合させることが、重要な課題となっている。報酬モデル(Reward Models, RMs)はこの目標を達成するための核心技術であるが、学術界および産業界において、最先端のマルチモーダル報酬モデル(Multimodal Reward Models, MRMs)を構築するための体系的なガイドラインは依然として不足している。本論文では、広範な実験的分析を通じて、高性能なMRMsを構築するための明確な「レシピ」を提示することを目的としている。我々は、MRM開発パイプラインにおけるすべての重要な要素を体系的に検証した。具体的には、報酬モデリングのアーキテクチャ(例:Naive-RM、CriticベースRM、Generative RM)、報酬ヘッドの構造、学習戦略、データの選別(10種類以上のマルチモーダルおよびテキスト専用の好みデータセットをカバー)、バックボーンモデルとモデルスケール、アンサンブル手法などを網羅的に検討した。これらの実験的知見に基づき、本研究ではマルチモーダル報酬モデリングの強力かつ効率的なベースラインとして「BaseReward」を提案する。BaseRewardは、{Qwen2.5-VL}をバックボーンとして採用し、シンプルながら効果的なアーキテクチャを持つ。特に、最適化された2層構造の報酬ヘッドを採用しており、高品質なマルチモーダルおよびテキスト専用の好みデータの混合データセット上で訓練されている。実験結果から、BaseRewardはMM-RLHF-Reward Bench、VL-Reward Bench、Multimodal Reward Benchといった主要なベンチマークにおいて、既存モデルを上回る新たなSOTA(State-of-the-Art)を達成したことが明らかになった。さらに、静的なベンチマークを超える実用的価値を検証するため、BaseRewardを実世界の強化学習パイプラインに統合し、さまざまな視覚認識、推論、対話タスクにおいてMLLMの性能を著しく向上させることに成功した。本研究は、最先端のMRMを提供するだけでなく、特に重要な点として、次世代MLLM向けに堅牢な報酬モデルを開発するための、明確かつ実証に基づいたガイドラインをコミュニティに提供したという点で意義深い。

AI で AI を構築

アイデアからローンチまで — 無料の AI 共同コーディング、すぐに使える環境、最適価格の GPU で AI 開発を加速。

AI 共同コーディング
すぐに使える GPU
最適価格
今すぐ始める

Hyper Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています
BaseReward:マルチモーダル報酬モデルにおける強力なベースライン | 論文 | HyperAI超神経