HyperAI超神经

VRBench:长叙事视频多步推理的基准测试集

Yu, Jiashuo ; Wu, Yue ; Chu, Meng ; Ren, Zhifei ; Huang, Zizheng ; Chu, Pei ; Zhang, Ruijie ; He, Yinan ; Li, Qirui ; Li, Songze ; Li, Zhenxiang ; Tu, Zhongying ; He, Conghui ; Qiao, Yu ; Wang, Yali ; Wang, Yi ; Wang, Limin
发布日期: 6/15/2025
VRBench:长叙事视频多步推理的基准测试集
摘要

我们介绍了VRBench,这是首个专为评估大型模型多步推理能力而设计的长叙事视频基准,旨在解决现有评估方法中忽视时间推理和程序有效性的问题。该基准包含1,010部长视频(平均时长为1.6小时),以及9,468个人工标注的多步问答对和30,292个带有时间戳的推理步骤。这些视频通过一个多阶段过滤过程精心挑选,包括专家互评审查,以优先考虑情节连贯性。我们开发了一个人类与AI协作框架,生成连贯的推理链,每个推理链都需要多个时间定位的步骤,涵盖七种类型(例如事件归因、隐含推断)。VRBench设计了一个多阶段评估管道,从结果和过程两个层面评估模型。除了用于最终结果的多项选择题外,我们还提出了一种进展水平的LLM引导评分指标,全面从多个维度评估推理链的质量。通过对12个LLM和16个VLM在VRBench上的广泛评估,我们进行了深入分析并提供了宝贵见解,推动了多步推理领域的进步。