VideoRewardBench 视频奖励模型评测数据集
VideoRewardBench 是由中国科学技术大学联合与华为诺亚方舟实验室于 2025 年发布的首个全面覆盖感知、知识、推理和安全四个视频理解核心维度的综合评测基准,相关论文成果为 VideoRewardBench: Comprehensive Evaluation of Multimodal Reward Models for Video Understanding,旨在系统评估模型在复杂视频理解场景下对生成结果进行偏好判断与质量评估的能力。
该数据集共包含 1,563 条带标注的样本,涉及 1,482 个不同视频和 1,559 个不同问题,每个样本由一个视频–文本提示、一个优选响应和一个拒绝响应组成。
数据集分布:
按任务维度分布,数据集覆盖五类核心评测维度,整体分布较为均衡:
- 长形式感知(Long-form Perception):283 组(18.1%)
- 短形式感知(Short-form Perception):413 组(26.4%)
- 知识(Knowledge):238 组(15.2%)
- 推理(Reasoning):278 组(17.8%)
- 安全(Safety):351 组(22.5%)
按视频时长分布,视频以短时长样本为主:
- ≤ 1 分钟:59.9%
- 1–5 分钟:33.2%
- > 5 分钟:6.9%
按文本统计
- 问题平均长度:28.8 词
- 回答平均长度:103.8 词
- 优选 / 拒绝回答平均长度:102.9 / 104.6 词
优选与拒绝回答在长度上分布接近,表明偏好标注主要由回答质量而非文本长度差异决定。