HyperAIHyperAI

Command Palette

Search for a command to run...

清华AI研究揭示:多模态大模型在3D密室逃脱测试中“看见不代表理解”

近年来,多模态大模型(MLLMs)在图像和视频理解等任务中展现出强大的能力,几乎无所不能。然而,这些模型在处理复杂的、多步骤的视觉推理任务时,是否真的具备人类那样的推理和决策能力呢? 为了回答这一问题,清华大学智能产业研究院(AIR)执行院长刘洋教授带领的团队与清华大学计算机系、复旦大学合作,推出了一项新研究成果——EscapeCraft。这一研究成果是一个3D密室逃脱环境,旨在评估多模态大模型在视觉环境中的复杂任务推理能力。EscapeCraft模拟了真实的密室逃脱游戏,其中模型需要依靠视觉线索与环境互动,完成诸如寻找钥匙、解开密码和逃出房间等任务。 研究人员通过对多个热门多模态大模型的测试,包括GPT-4o、Gemini-1.5 Pro、Claude 3.5、LLaMA-3.2、Qwen和Phi-3,发现这些模型在实际测试中表现出了一些令人惊讶的行为。尽管它们可以识别出一些基本的物体,但在复杂的推理任务中往往显得力不从心。例如,有的模型虽然看到了门,但却不停地绕墙;捡到了钥匙,却不知道如何使用;还有一些模型试图通过“抓”沙发来找到隐藏的暗格,这显示了模型在某些情况下的盲目行为。即便是号称当前最先进的GPT-4o,也仅能在少数子任务中展现出理解后的正确执行,大多数任务的成功只是出于偶然。 研究团队设计了多种创新指标来评估模型的推理过程,如Intent-Outcome Consistency(意图与结果一致性),用以衡量模型与环境交互的结果是否与其意图相符,以及Prop Gain / Grab Ratio / GSR,反映了模型在探索和推理过程中的行为模式、交互质量和推理效率。通过这些指标,研究人员发现,即使是 Difficulty-3 这样较为简单的场景,GPT-4o也仅有26.5%的子目标是真正的理解后完成的,其余大部分任务成功纯属偶然。 此外,研究还揭示了一些有趣的失败案例。例如,Claude 3.5的错误中,61.1%属于推理问题,38.9%属于视觉问题,这进一步证明了即使模型能够“看到”环境中的物体,也不意味着它能够“理解”如何正确地使用这些物体。 EscapeCraft不仅是一个创新的评估平台,还具有高度的灵活性和可扩展性。它可以自动生成不同风格的房间,支持不同的道具链长度和难度组合,还可以扩展到其他任务,如问答、逻辑推理和叙述重建。这使得EscapeCraft成为未来智能体、多模态推理和强化学习研究的基础工具,能够为这些领域的研究者提供有价值的参考和支持。 EscapeCraft的研究成果已被计算机视觉顶会ICCV 2025录用,共同一作是王梓玥和董宇睿。该项目的主页和GitHub地址分别提供了详细的介绍和技术文档,方便感兴趣的读者进一步了解或参与研究。 业内专家评价,这一研究揭示了多模态大模型在实际应用场景中的局限性,特别是在需要综合多种信息进行复杂推理的任务上。清华大学智能产业研究院致力于推动人工智能的前沿研究,而此次成果则为多模态大模型的实际应用指明了新的方向,同时提出了诸多值得深入探讨的问题。

相关链接