HyperAI超神经

近年来，多模态大模型（MLLMs）在图像和视频理解等任务中展现出强大的能力，几乎无所不能。然而，这些模型在处理复杂的、多步骤的视觉推理任务时，是否真的具备人类那样的推理和决策能力呢？为了回答这一问题，清华大学智能产业研究院（AIR）执行院长刘洋教授带领的团队与清华大学计算机系、复旦大学合作，推出了一项新研究成果——EscapeCraft。这一研究成果是一个3D密室逃脱环境，旨在评估多模态大模型在视觉环境中的复杂任务推理能力。EscapeCraft模拟了真实的密室逃脱游戏，其中模型需要依靠视觉线索与环境互动，完成诸如寻找钥匙、解开密码和逃出房间等任务。研究人员通过对多个热门多模态大模型的测试，包括GPT-4o、Gemini-1.5 Pro、Claude 3.5、LLaMA-3.2、Qwen和Phi-3，发现这些模型在实际测试中表现出了一些令人惊讶的行为。尽管它们可以识别出一些基本的物体，但在复杂的推理任务中往往显得力不从心。例如，有的模型虽然看到了门，但却不停地绕墙；捡到了钥匙，却不知道如何使用；还有一些模型试图通过“抓”沙发来找到隐藏的暗格，这显示了模型在某些情况下的盲目行为。即便是号称当前最先进的GPT-4o，也仅能在少数子任务中展现出理解后的正确执行，大多数任务的成功只是出于偶然。研究团队设计了多种创新指标来评估模型的推理过程，如Intent-Outcome Consistency（意图与结果一致性），用以衡量模型与环境交互的结果是否与其意图相符，以及Prop Gain / Grab Ratio / GSR，反映了模型在探索和推理过程中的行为模式、交互质量和推理效率。通过这些指标，研究人员发现，即使是 Difficulty-3 这样较为简单的场景，GPT-4o也仅有26.5%的子目标是真正的理解后完成的，其余大部分任务成功纯属偶然。此外，研究还揭示了一些有趣的失败案例。例如，Claude 3.5的错误中，61.1%属于推理问题，38.9%属于视觉问题，这进一步证明了即使模型能够“看到”环境中的物体，也不意味着它能够“理解”如何正确地使用这些物体。 EscapeCraft不仅是一个创新的评估平台，还具有高度的灵活性和可扩展性。它可以自动生成不同风格的房间，支持不同的道具链长度和难度组合，还可以扩展到其他任务，如问答、逻辑推理和叙述重建。这使得EscapeCraft成为未来智能体、多模态推理和强化学习研究的基础工具，能够为这些领域的研究者提供有价值的参考和支持。 EscapeCraft的研究成果已被计算机视觉顶会ICCV 2025录用，共同一作是王梓玥和董宇睿。该项目的主页和GitHub地址分别提供了详细的介绍和技术文档，方便感兴趣的读者进一步了解或参与研究。业内专家评价，这一研究揭示了多模态大模型在实际应用场景中的局限性，特别是在需要综合多种信息进行复杂推理的任务上。清华大学智能产业研究院致力于推动人工智能的前沿研究，而此次成果则为多模态大模型的实际应用指明了新的方向，同时提出了诸多值得深入探讨的问题。

相关链接

相关链接

相关链接

当多模态开始卷落地：MiniCPM-o-4.5 仅 9B 覆盖实时图像理解与文本生成；vLLM Omni 同时支持文本与多模态模型的高吞吐部署与服务化

当多模态开始卷落地：MiniCPM-o-4.5 仅 9B 覆盖实时图像理解与文本生成；vLLM Omni 同时支持文本与多模态模型的高吞吐部署与服务化

Command Palette

清华AI研究揭示：多模态大模型在3D密室逃脱测试中“看见不代表理解”

相关链接

Command Palette

清华AI研究揭示：多模态大模型在3D密室逃脱测试中“看见不代表理解”

相关链接

Command Palette

清华AI研究揭示：多模态大模型在3D密室逃脱测试中“看见不代表理解”

相关链接

当多模态开始卷落地：MiniCPM-o-4.5 仅 9B 覆盖实时图像理解与文本生成；vLLM Omni 同时支持文本与多模态模型的高吞吐部署与服务化

当多模态开始卷落地：MiniCPM-o-4.5 仅 9B 覆盖实时图像理解与文本生成；vLLM Omni 同时支持文本与多模态模型的高吞吐部署与服务化