HyperAI超神经

MORSE-500:一个可编程控制的视频基准测试,用于压力测试多模态推理

Zikui Cai, Andrew Wang, Anirudh Satheesh, Ankit Nakhawa, Hyunwoo Jae, Keenan Powell, Minghui Liu, Neel Jay, Sungbin Oh, Xiyao Wang, Yongyuan Liang, Tom Goldstein, Furong Huang
发布日期: 6/9/2025
MORSE-500:一个可编程控制的视频基准测试,用于压力测试多模态推理
摘要

尽管视觉-语言模型(VLMs)取得了快速进展,但当前的多模态推理基准在三个关键方面仍存在不足。首先,这些基准主要依赖静态图像,无法捕捉现实世界环境的时间复杂性。其次,它们过于专注于数学问题求解,忽视了实现稳健多模态智能所需的更广泛推理技能——包括抽象、物理、规划、空间和时间能力。第三,许多基准很快达到饱和状态,提供有限的空间来诊断失败模式或衡量持续进步。我们引入了MORSE-500(多模态推理压力测试环境),这是一个由500个完全脚本化的视频片段组成的视频基准,每个片段中嵌入了涵盖六个互补推理类别的问题。每个实例都是通过确定性的Python脚本(使用Manim、Matplotlib和MoviePy)、生成式视频模型以及精选的真实场景录像程序化生成的。这种脚本驱动的设计允许对视觉复杂性、干扰物密度和时间动态进行细粒度控制——随着模型的改进,难度可以系统地调整。与一旦饱和就变得过时的静态基准不同,MORSE-500旨在不断进化:其可控生成管道支持创建任意具有挑战性的新实例,使其特别适合用于下一代模型的压力测试。初步实验表明,最先进的系统——包括各种Gemini 2.5 Pro和OpenAI o3(代表当时最强的可用模型)以及强大的开源模型——在所有类别中都存在显著的性能差距,尤其是在抽象和规划任务上表现尤为不足。我们发布了完整的数据集、生成脚本和评估框架,以支持透明、可重复且面向未来的多模态推理研究。