日期

2 个月前

数据集组织

论文 URL

2509.00484

许可证

MIT

标签

偏好

视频理解

VideoRewardBench 是由中国科学技术大学联合与华为诺亚方舟实验室于 2025 年发布的首个全面覆盖感知、知识、推理和安全四个视频理解核心维度的综合评测基准，相关论文成果为 VideoRewardBench: Comprehensive Evaluation of Multimodal Reward Models for Video Understanding，旨在系统评估模型在复杂视频理解场景下对生成结果进行偏好判断与质量评估的能力。

该数据集共包含 1,563 条带标注的样本，涉及 1,482 个不同视频和 1,559 个不同问题，每个样本由一个视频–文本提示、一个优选响应和一个拒绝响应组成。

数据集分布：

按任务维度分布，数据集覆盖五类核心评测维度，整体分布较为均衡：

长形式感知（Long-form Perception）：283 组（18.1%）
短形式感知（Short-form Perception）：413 组（26.4%）
知识（Knowledge）：238 组（15.2%）
推理（Reasoning）：278 组（17.8%）
安全（Safety）：351 组（22.5%）

按视频时长分布，视频以短时长样本为主：

≤ 1 分钟：59.9%
1–5 分钟：33.2%
> 5 分钟：6.9%

按文本统计

问题平均长度：28.8 词
回答平均长度：103.8 词
优选 / 拒绝回答平均长度：102.9 / 104.6 词

优选与拒绝回答在长度上分布接近，表明偏好标注主要由回答质量而非文本长度差异决定。

该数据集由社区用户贡献，仅供交流学习使用。如内容涉及侵权，请联系邮箱 [email protected] 以便及时审查和下架。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

HyperAI

使用此数据集在 Discord 上讨论

日期

2 个月前

数据集组织

论文 URL

2509.00484

许可证

MIT

标签

偏好

视频理解

数据集分布：

按任务维度分布，数据集覆盖五类核心评测维度，整体分布较为均衡：

长形式感知（Long-form Perception）：283 组（18.1%）
短形式感知（Short-form Perception）：413 组（26.4%）
知识（Knowledge）：238 组（15.2%）
推理（Reasoning）：278 组（17.8%）
安全（Safety）：351 组（22.5%）

按视频时长分布，视频以短时长样本为主：

≤ 1 分钟：59.9%
1–5 分钟：33.2%
> 5 分钟：6.9%

按文本统计

问题平均长度：28.8 词
回答平均长度：103.8 词
优选 / 拒绝回答平均长度：102.9 / 104.6 词

优选与拒绝回答在长度上分布接近，表明偏好标注主要由回答质量而非文本长度差异决定。

该数据集由社区用户贡献，仅供交流学习使用。如内容涉及侵权，请联系邮箱 [email protected] 以便及时审查和下架。

HumanSense Benchmark 人体感知基准数据集

3 个月前

VenusBench-GD 跨平台界面理解数据集

1 个月前

DetectiumFire 多模态火灾理解数据集

2 个月前

SimpleQA 简明事实性问答评测数据集

1 个月前

EditReward-Bench 图像编辑评测数据集

3 个月前

5.08 GB61

VERA 语音推理评测数据集

3 个月前

2.37 GB59

GroundingME 复杂场景理解评测数据集

1 个月前

Spatial-SSRL-81k 空间感知自监督数据集

2 个月前

PhysToolBench 物理工具任务数据集

2 个月前

1.56 GB58

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

Command Palette

VideoRewardBench 视频奖励模型评测数据集

数据集分布：

用 AI 构建 AI

HyperAI Newsletters

Command Palette

VideoRewardBench 视频奖励模型评测数据集

数据集分布：

相关数据集

HumanSense Benchmark 人体感知基准数据集

VenusBench-GD 跨平台界面理解数据集

DetectiumFire 多模态火灾理解数据集

SimpleQA 简明事实性问答评测数据集

EditReward-Bench 图像编辑评测数据集

VERA 语音推理评测数据集

GroundingME 复杂场景理解评测数据集

Spatial-SSRL-81k 空间感知自监督数据集

PhysToolBench 物理工具任务数据集

用 AI 构建 AI

HyperAI Newsletters

Command Palette

VideoRewardBench 视频奖励模型评测数据集

数据集分布：

相关数据集

HumanSense Benchmark 人体感知基准数据集

VenusBench-GD 跨平台界面理解数据集

DetectiumFire 多模态火灾理解数据集

SimpleQA 简明事实性问答评测数据集

EditReward-Bench 图像编辑评测数据集

VERA 语音推理评测数据集

GroundingME 复杂场景理解评测数据集

Spatial-SSRL-81k 空间感知自监督数据集

PhysToolBench 物理工具任务数据集

用 AI 构建 AI

HyperAI Newsletters

相关数据集

HumanSense Benchmark 人体感知基准数据集

VenusBench-GD 跨平台界面理解数据集

DetectiumFire 多模态火灾理解数据集

SimpleQA 简明事实性问答评测数据集

EditReward-Bench 图像编辑评测数据集

VERA 语音推理评测数据集

GroundingME 复杂场景理解评测数据集

Spatial-SSRL-81k 空间感知自监督数据集

PhysToolBench 物理工具任务数据集

相关数据集

HumanSense Benchmark 人体感知基准数据集

VenusBench-GD 跨平台界面理解数据集

DetectiumFire 多模态火灾理解数据集

SimpleQA 简明事实性问答评测数据集

EditReward-Bench 图像编辑评测数据集

VERA 语音推理评测数据集

GroundingME 复杂场景理解评测数据集

Spatial-SSRL-81k 空间感知自监督数据集

PhysToolBench 物理工具任务数据集