HyperAIHyperAI

Command Palette

Search for a command to run...

Console
2日前

VideoRewardBench:動画理解におけるマルチモーダル報酬モデルの包括的評価

Zhihong Zhang Xiaojian Huang Jin Xu Zhuodong Luo Xinzhi Wang Jiansheng Wei Xuejin Chen

VideoRewardBench:動画理解におけるマルチモーダル報酬モデルの包括的評価

要約

マルチモーダル報酬モデル(MRMs)は、大規模視覚言語モデル(LVLMs)の学習、推論、評価において、応答品質の評価を通じて中心的な役割を果たしている。しかし、動画領域におけるMRMsを評価する既存のベンチマークは、質問の数と多様性が限られていること、包括的な評価次元が不足していること、およびさまざまなタイプのMRMsに対する評価が不十分であるという課題を抱えている。こうしたギャップを解消するため、本研究では、視覚理解の4つの核心的側面——知覚、知識、推論、安全性——を網羅する、初めての包括的なベンチマーク「VideoRewardBench」を提案する。AI支援型のデータパイプラインを用いて、1,563件の高品質な好みデータセットを構築した。このデータセットには、1,482本のユニークな動画と1,559の異なる質問が含まれており、これまでで最も質問数が多いベンチマークの15倍に相当する。各サンプルは、動画・テキストプロンプト、選択された応答、拒否された応答からなる三つ組み(triplet)で構成されている。さらに、生成型、判別型、半スカラー型の3つのカテゴリに分類される28種類のマルチモーダル報酬モデルについて包括的な評価を実施した。その結果、トップパフォーマンスを示すモデルであるGPT-4oでも全体の正解率は57.0%にとどまり、最先端のオープンソースモデルであるQwen2.5-VL-72Bでもわずか53.3%に留まった。分析から以下の3つの重要な知見が得られた:(i) ベースラインに比べて強化学習(RL)で学習されたMRMsが、必ずしもより優れたクロスモーダル一般化能力を示すわけではない;(ii) 判別型MRMsを除き、モデル容量が異なるさまざまなタイプのMRMsは、推論時スケーリングによって恩恵を受ける可能性がある;(iii) 入力動画のフレーム数の変動は、MRMsの種類によって異なる影響を及ぼす。本研究では、VideoRewardBenchが動画領域におけるMRMsの評価と開発を進める上で、挑戦的かつ貴重なベンチマークであると確信している。

AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最適価格のGPUでAI開発を加速。

AI共同コーディング
すぐに利用可能な GPU
最適価格

Hyper Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています
VideoRewardBench:動画理解におけるマルチモーダル報酬モデルの包括的評価 | 論文 | HyperAI超神経