Command Palette
Search for a command to run...
Yang Luo Xuanlei Zhao Baijiong Lin Lingting Zhu Liyao Tang Yuqi Liu Ying-Cong Chen Shengju Qian Xin Wang Yang You

摘要
近年来,生成式视频模型(如Veo-3)展现出令人惊讶的零样本推理能力,这促使人们迫切需要建立系统化且可靠的评估体系。为此,我们提出了V-ReasonBench——一个旨在评估视频推理能力的基准测试框架,涵盖四个核心维度:结构化问题求解、空间认知、基于模式的推理以及物理动态理解。该基准基于合成数据与真实世界图像序列构建,提供多样化、可验证答案的任务,具备可复现性、可扩展性与明确性。对六种前沿视频模型的评估结果显示,各模型在不同维度上表现差异显著,尤其在结构化推理、空间认知、模式识别及物理推理方面存在明显波动。我们进一步将视频模型与高性能图像模型进行对比,分析了常见的幻觉(hallucination)行为,并探讨了视频时长对“帧链推理”(Chain-of-Frames reasoning)能力的影响。总体而言,V-ReasonBench为视频推理能力的衡量提供了一个统一、可复现的评估框架,旨在推动具备更可靠、更符合人类认知逻辑推理能力的模型发展。