8 个月前

计算机视觉

Yu Jiashuo Wu Yue Chu Meng Ren Zhifei Huang Zizheng

摘要

我们介绍了VRBench，这是首个专为评估大型模型多步推理能力而设计的长叙事视频基准，旨在解决现有评估方法中忽视时间推理和程序有效性的问题。该基准包含1,010部长视频（平均时长为1.6小时），以及9,468个人工标注的多步问答对和30,292个带有时间戳的推理步骤。这些视频通过一个多阶段过滤过程精心挑选，包括专家互评审查，以优先考虑情节连贯性。我们开发了一个人类与AI协作框架，生成连贯的推理链，每个推理链都需要多个时间定位的步骤，涵盖七种类型（例如事件归因、隐含推断）。VRBench设计了一个多阶段评估管道，从结果和过程两个层面评估模型。除了用于最终结果的多项选择题外，我们还提出了一种进展水平的LLM引导评分指标，全面从多个维度评估推理链的质量。通过对12个LLM和16个VLM在VRBench上的广泛评估，我们进行了深入分析并提供了宝贵见解，推动了多步推理领域的进步。

源 PDF 查看代码

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

8 个月前

计算机视觉

Yu Jiashuo Wu Yue Chu Meng Ren Zhifei Huang Zizheng

摘要

我们介绍了VRBench，这是首个专为评估大型模型多步推理能力而设计的长叙事视频基准，旨在解决现有评估方法中忽视时间推理和程序有效性的问题。该基准包含1,010部长视频（平均时长为1.6小时），以及9,468个人工标注的多步问答对和30,292个带有时间戳的推理步骤。这些视频通过一个多阶段过滤过程精心挑选，包括专家互评审查，以优先考虑情节连贯性。我们开发了一个人类与AI协作框架，生成连贯的推理链，每个推理链都需要多个时间定位的步骤，涵盖七种类型（例如事件归因、隐含推断）。VRBench设计了一个多阶段评估管道，从结果和过程两个层面评估模型。除了用于最终结果的多项选择题外，我们还提出了一种进展水平的LLM引导评分指标，全面从多个维度评估推理链的质量。通过对12个LLM和16个VLM在VRBench上的广泛评估，我们进行了深入分析并提供了宝贵见解，推动了多步推理领域的进步。

源 PDF 查看代码

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供