HyperAIHyperAI

Command Palette

Search for a command to run...

控制台

VideoRewardBench 视频奖励模型评测数据集

在 Discord 上讨论

日期

18 小时前

组织

中国科学技术大学

论文 URL

2509.00484

许可证

MIT

VideoRewardBench 是由中国科学技术大学联合与华为诺亚方舟实验室于 2025 年发布的首个全面覆盖感知、知识、推理和安全四个视频理解核心维度的综合评测基准,相关论文成果为 VideoRewardBench: Comprehensive Evaluation of Multimodal Reward Models for Video Understanding,旨在系统评估模型在复杂视频理解场景下对生成结果进行偏好判断与质量评估的能力。

该数据集共包含 1,563 条带标注的样本,涉及 1,482 个不同视频和 1,559 个不同问题,每个样本由一个视频–文本提示、一个优选响应和一个拒绝响应组成。

数据集分布:

按任务维度分布,数据集覆盖五类核心评测维度,整体分布较为均衡:

  • 长形式感知(Long-form Perception):283 组(18.1%)
  • 短形式感知(Short-form Perception):413 组(26.4%)
  • 知识(Knowledge):238 组(15.2%)
  • 推理(Reasoning):278 组(17.8%)
  • 安全(Safety):351 组(22.5%)

按视频时长分布,视频以短时长样本为主:

  • ≤ 1 分钟:59.9%
  • 1–5 分钟:33.2%
  • > 5 分钟:6.9%

按文本统计

  • 问题平均长度:28.8 词
  • 回答平均长度:103.8 词
  • 优选 / 拒绝回答平均长度:102.9 / 104.6 词

优选与拒绝回答在长度上分布接近,表明偏好标注主要由回答质量而非文本长度差异决定。

用 AI 构建 AI

从构思到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格加速您的 AI 开发。

AI 协同编码
可直接使用的 GPU
最佳价格

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供