VideoRewardBench ビデオ報酬モデル評価データセット
中国科学技術大学とHuawei Noah's Ark Labが共同開発したVideoRewardBenchは、2025年初となる、動画理解における4つのコア要素(知覚、知識、推論、セキュリティ)を網羅した包括的な評価ベンチマークです。関連研究論文には以下が含まれます。 VideoRewardBench: 動画理解のためのマルチモーダル報酬モデルの包括的評価目的は、複雑なビデオ理解シナリオにおいて、生成された結果の好みの判断と品質評価を行うモデルの能力を体系的に評価することです。
このデータセットには、1,482本の異なる動画と1,559本の異なる質問を含む、1,563個のラベル付きサンプルが含まれています。各サンプルは、動画テキストプロンプト、推奨される回答、および拒否される回答で構成されています。
データセットの配布:
データセットはタスク次元別に分散されており、5 つのコア評価次元をカバーしており、全体的な分散は比較的バランスが取れています。
- 長文知覚:283グループ(18.1%)
- 短縮形の知覚:413グループ(26.4%)
- 知識: 238 セット (15.2%)
- 推論: 278 グループ (17.8%)
- セーフティ:351セット(22.5%)
動画の長さの分布に基づくと、短い動画が主流となっています。
- ≤ 1分: 59.9%
- 1~5分: 33.21 TP3T
- 5分以上: 6.9%
テキストによる統計
- 平均質問長: 28.8語
- 平均回答長: 103.8語
- 推奨/拒否された回答の平均文字数: 102.9 / 104.6 語
優先回答と拒否回答の長さの分布が似ていることから、優先ラベル付けはテキストの長さの違いではなく、主に回答の品質によって決定されることがわかります。