HyperAIHyperAI

Command Palette

Search for a command to run...

Console

MMGR:多模态生成式推理

Abstract

视频基础模型能够生成视觉上逼真且时间上连贯的内容,但其作为世界模拟器的可靠性,取决于模型是否准确捕捉了物理、逻辑与空间约束。现有评估指标(如弗雷歇视频距离,FVD)主要关注感知质量,却忽视了推理层面的失败,例如因果关系违背、物理规律违反以及全局一致性缺失等问题。为此,我们提出MMGR(多模态生成推理评估与基准测试框架),这是一个基于五种核心推理能力的系统性评估体系:物理推理、逻辑推理、三维空间推理、二维空间推理以及时间推理。MMGR在三个关键领域对生成模型的推理能力进行评估:抽象推理(ARC-AGI、数独)、具身导航(真实世界三维导航与定位)以及物理常识理解(体育场景与复合交互行为)。MMGR采用细粒度评估指标,要求视频与图像生成结果在整体上均具备正确性,而非仅满足局部视觉合理性。我们对当前领先的视频模型(Veo-3、Sora-2、Wan-2.2)和图像模型(Nano-banana、Nano-banana Pro、GPT-4o-image、Qwen-image)进行了全面基准测试,结果揭示了各模型在不同领域间存在显著性能差距。模型在物理常识任务中表现尚可,但在抽象推理任务上表现不佳(如ARC-AGI任务准确率低于10%),且在具身场景下的长时程空间规划能力严重不足。我们的分析揭示了当前模型存在的若干关键局限:过度依赖感知线索、全局状态一致性薄弱,以及训练目标更倾向于奖励视觉合理性而非因果正确性。MMGR提供了一个统一的诊断性基准平台,为构建具备推理能力的生成式世界模型指明了发展方向。


Build AI with AI

From idea to launch — accelerate your AI development with free AI co-coding, out-of-the-box environment and best price of GPUs.

AI Co-coding
Ready-to-use GPUs
Best Pricing

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供