3 个月前

统一多模态

Yang Luo Xuanlei Zhao Baijiong Lin Lingting Zhu Liyao Tang Yuqi Liu Ying-Cong Chen Shengju Qian Xin Wang Yang You

摘要

近年来，生成式视频模型（如Veo-3）展现出令人惊讶的零样本推理能力，这促使人们迫切需要建立系统化且可靠的评估体系。为此，我们提出了V-ReasonBench——一个旨在评估视频推理能力的基准测试框架，涵盖四个核心维度：结构化问题求解、空间认知、基于模式的推理以及物理动态理解。该基准基于合成数据与真实世界图像序列构建，提供多样化、可验证答案的任务，具备可复现性、可扩展性与明确性。对六种前沿视频模型的评估结果显示，各模型在不同维度上表现差异显著，尤其在结构化推理、空间认知、模式识别及物理推理方面存在明显波动。我们进一步将视频模型与高性能图像模型进行对比，分析了常见的幻觉（hallucination）行为，并探讨了视频时长对“帧链推理”（Chain-of-Frames reasoning）能力的影响。总体而言，V-ReasonBench为视频推理能力的衡量提供了一个统一、可复现的评估框架，旨在推动具备更可靠、更符合人类认知逻辑推理能力的模型发展。

源 PDF 查看代码

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

3 个月前

统一多模态

Yang Luo Xuanlei Zhao Baijiong Lin Lingting Zhu Liyao Tang Yuqi Liu Ying-Cong Chen Shengju Qian Xin Wang Yang You

摘要

近年来，生成式视频模型（如Veo-3）展现出令人惊讶的零样本推理能力，这促使人们迫切需要建立系统化且可靠的评估体系。为此，我们提出了V-ReasonBench——一个旨在评估视频推理能力的基准测试框架，涵盖四个核心维度：结构化问题求解、空间认知、基于模式的推理以及物理动态理解。该基准基于合成数据与真实世界图像序列构建，提供多样化、可验证答案的任务，具备可复现性、可扩展性与明确性。对六种前沿视频模型的评估结果显示，各模型在不同维度上表现差异显著，尤其在结构化推理、空间认知、模式识别及物理推理方面存在明显波动。我们进一步将视频模型与高性能图像模型进行对比，分析了常见的幻觉（hallucination）行为，并探讨了视频时长对“帧链推理”（Chain-of-Frames reasoning）能力的影响。总体而言，V-ReasonBench为视频推理能力的衡量提供了一个统一、可复现的评估框架，旨在推动具备更可靠、更符合人类认知逻辑推理能力的模型发展。

源 PDF 查看代码

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供