日付

2ヶ月前

データセット構成

Paper URL

2509.00484

ライセンス

MIT

タグ

Preference Modeling

ビデオ理解

中国科学技術大学とHuawei Noah's Ark Labが共同開発したVideoRewardBenchは、2025年初となる、動画理解における4つのコア要素（知覚、知識、推論、セキュリティ）を網羅した包括的な評価ベンチマークです。関連研究論文には以下が含まれます。 VideoRewardBench: 動画理解のためのマルチモーダル報酬モデルの包括的評価目的は、複雑なビデオ理解シナリオにおいて、生成された結果の好みの判断と品質評価を行うモデルの能力を体系的に評価することです。

このデータセットには、1,482本の異なる動画と1,559本の異なる質問を含む、1,563個のラベル付きサンプルが含まれています。各サンプルは、動画テキストプロンプト、推奨される回答、および拒否される回答で構成されています。

データセットの配布:

データセットはタスク次元別に分散されており、5 つのコア評価次元をカバーしており、全体的な分散は比較的バランスが取れています。

長文知覚：283グループ（18.1%）
短縮形の知覚：413グループ（26.4%）
知識: 238 セット (15.2%)
推論: 278 グループ (17.8%)
セーフティ：351セット（22.5%）

動画の長さの分布に基づくと、短い動画が主流となっています。

≤ 1分: 59.9%
1～5分: 33.21 TP3T
5分以上: 6.9%

テキストによる統計

平均質問長: 28.8語
平均回答長: 103.8語
推奨/拒否された回答の平均文字数: 102.9 / 104.6 語

優先回答と拒否回答の長さの分布が似ていることから、優先ラベル付けはテキストの長さの違いではなく、主に回答の品質によって決定されることがわかります。

このデータセットはコミュニティユーザーによって提供されており、教育および情報提供のみを目的としています。著作権侵害に関わるコンテンツがある場合は、[email protected]までご連絡ください。速やかに確認し、削除いたします。

AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助

すぐに使える GPU

最適な料金体系

開始する料金を見る

HyperAI Newsletters

最新情報を購読する

北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします

メール配信サービスは MailChimp によって提供されています

HyperAI

このデータセットを使用 Discordで議論

日付

2ヶ月前

データセット構成

Paper URL

2509.00484

ライセンス

MIT

タグ

Preference Modeling

ビデオ理解

データセットの配布:

データセットはタスク次元別に分散されており、5 つのコア評価次元をカバーしており、全体的な分散は比較的バランスが取れています。

長文知覚：283グループ（18.1%）
短縮形の知覚：413グループ（26.4%）
知識: 238 セット (15.2%)
推論: 278 グループ (17.8%)
セーフティ：351セット（22.5%）

動画の長さの分布に基づくと、短い動画が主流となっています。

≤ 1分: 59.9%
1～5分: 33.21 TP3T
5分以上: 6.9%

テキストによる統計

平均質問長: 28.8語
平均回答長: 103.8語
推奨/拒否された回答の平均文字数: 102.9 / 104.6 語

SimpleQA 簡潔な事実に基づく質問応答評価データセット

2ヶ月前

VenusBench-GD クロスプラットフォームインターフェースデータセットの理解

2ヶ月前

DetectiumFire マルチモーダル火災理解データセット

3ヶ月前

GroundingME 複雑シーン理解評価データセット

2ヶ月前

Spatial-SSRL-81k 空間認識自己教師データセット

3ヶ月前

PhysToolBench 物理ツールタスクデータセット

3ヶ月前

1.56 GB61

Soul-Bench オーディオ駆動型人間アニメーション評価データセット

2ヶ月前

MCIFマルチモーダルクロスランゲージ指導データセット

2ヶ月前

X-Dance 画像駆動型ダンスモーションデータセット

3ヶ月前

147.3 MB77

AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助

すぐに使える GPU

最適な料金体系

開始する料金を見る

HyperAI Newsletters

最新情報を購読する

北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします

メール配信サービスは MailChimp によって提供されています

Command Palette

VideoRewardBench ビデオ報酬モデル評価データセット

データセットの配布:

AIでAIを構築

HyperAI Newsletters

Command Palette

VideoRewardBench ビデオ報酬モデル評価データセット

データセットの配布:

関連 データセット

SimpleQA 簡潔な事実に基づく質問応答評価データセット

VenusBench-GD クロスプラットフォームインターフェースデータセットの理解

DetectiumFire マルチモーダル火災理解データセット

GroundingME 複雑シーン理解評価データセット

Spatial-SSRL-81k 空間認識自己教師データセット

PhysToolBench 物理ツールタスクデータセット

Soul-Bench オーディオ駆動型人間アニメーション評価データセット

MCIFマルチモーダルクロスランゲージ指導データセット

X-Dance 画像駆動型ダンスモーションデータセット

AIでAIを構築

HyperAI Newsletters

Command Palette

VideoRewardBench ビデオ報酬モデル評価データセット

データセットの配布:

関連 データセット

SimpleQA 簡潔な事実に基づく質問応答評価データセット

VenusBench-GD クロスプラットフォームインターフェースデータセットの理解

DetectiumFire マルチモーダル火災理解データセット

GroundingME 複雑シーン理解評価データセット

Spatial-SSRL-81k 空間認識自己教師データセット

PhysToolBench 物理ツールタスクデータセット

Soul-Bench オーディオ駆動型人間アニメーション評価データセット

MCIFマルチモーダルクロスランゲージ指導データセット

X-Dance 画像駆動型ダンスモーションデータセット

AIでAIを構築

HyperAI Newsletters

関連 データセット

SimpleQA 簡潔な事実に基づく質問応答評価データセット

VenusBench-GD クロスプラットフォームインターフェースデータセットの理解

DetectiumFire マルチモーダル火災理解データセット

GroundingME 複雑シーン理解評価データセット

Spatial-SSRL-81k 空間認識自己教師データセット

PhysToolBench 物理ツールタスクデータセット

Soul-Bench オーディオ駆動型人間アニメーション評価データセット

MCIFマルチモーダルクロスランゲージ指導データセット

X-Dance 画像駆動型ダンスモーションデータセット

関連 データセット

SimpleQA 簡潔な事実に基づく質問応答評価データセット

VenusBench-GD クロスプラットフォームインターフェースデータセットの理解

DetectiumFire マルチモーダル火災理解データセット

GroundingME 複雑シーン理解評価データセット

Spatial-SSRL-81k 空間認識自己教師データセット

PhysToolBench 物理ツールタスクデータセット

Soul-Bench オーディオ駆動型人間アニメーション評価データセット

MCIFマルチモーダルクロスランゲージ指導データセット

X-Dance 画像駆動型ダンスモーションデータセット

関連データセット

関連データセット

関連データセット

関連データセット