Command Palette

Search for a command to run...

3 天前

V-ReasonBench:面向视频生成模型的统一推理基准测试套件

Yang Luo Xuanlei Zhao Baijiong Lin Lingting Zhu Liyao Tang Yuqi Liu Ying-Cong Chen Shengju Qian Xin Wang Yang You

V-ReasonBench:面向视频生成模型的统一推理基准测试套件

摘要

近年来,生成式视频模型(如Veo-3)展现出令人惊讶的零样本推理能力,这促使人们迫切需要建立系统化且可靠的评估体系。为此,我们提出了V-ReasonBench——一个旨在评估视频推理能力的基准测试框架,涵盖四个核心维度:结构化问题求解、空间认知、基于模式的推理以及物理动态理解。该基准基于合成数据与真实世界图像序列构建,提供多样化、可验证答案的任务,具备可复现性、可扩展性与明确性。对六种前沿视频模型的评估结果显示,各模型在不同维度上表现差异显著,尤其在结构化推理、空间认知、模式识别及物理推理方面存在明显波动。我们进一步将视频模型与高性能图像模型进行对比,分析了常见的幻觉(hallucination)行为,并探讨了视频时长对“帧链推理”(Chain-of-Frames reasoning)能力的影响。总体而言,V-ReasonBench为视频推理能力的衡量提供了一个统一、可复现的评估框架,旨在推动具备更可靠、更符合人类认知逻辑推理能力的模型发展。

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供