HyperAIHyperAI

Command Palette

Search for a command to run...

Console

VideoRewardBench ビデオ報酬モデル評価データセット

Discordで議論

日付

18時間前

組織

中国科学技術大学

論文URL

2509.00484

ライセンス

MIT

中国科学技術大学とHuawei Noah's Ark Labが共同開発したVideoRewardBenchは、2025年初となる、動画理解における4つのコア要素(知覚、知識、推論、セキュリティ)を網羅した包括的な評価ベンチマークです。関連研究論文には以下が含まれます。 VideoRewardBench: 動画理解のためのマルチモーダル報酬モデルの包括的評価目的は、複雑なビデオ理解シナリオにおいて、生成された結果の好みの判断と品質評価を行うモデルの能力を体系的に評価することです。

このデータセットには、1,482本の異なる動画と1,559本の異なる質問を含む、1,563個のラベル付きサンプルが含まれています。各サンプルは、動画テキストプロンプト、推奨される回答、および拒否される回答で構成されています。

データセットの配布:

データセットはタスク次元別に分散されており、5 つのコア評価次元をカバーしており、全体的な分散は比較的バランスが取れています。

  • 長文知覚:283グループ(18.1%)
  • 短縮形の知覚:413グループ(26.4%)
  • 知識: 238 セット (15.2%)
  • 推論: 278 グループ (17.8%)
  • セーフティ:351セット(22.5%)

動画の長さの分布に基づくと、短い動画が主流となっています。

  • ≤ 1分: 59.9%
  • 1~5分: 33.21 TP3T
  • 5分以上: 6.9%

テキストによる統計

  • 平均質問長: 28.8語
  • 平均回答長: 103.8語
  • 推奨/拒否された回答の平均文字数: 102.9 / 104.6 語

優先回答と拒否回答の長さの分布が似ていることから、優先ラベル付けはテキストの長さの違いではなく、主に回答の品質によって決定されることがわかります。

AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最適価格のGPUでAI開発を加速。

AI共同コーディング
すぐに利用可能な GPU
最適価格

Hyper Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています