Command Palette
Search for a command to run...
Agentic-MME:Agentic 能力究竟为多模态智能带来了什么?
Agentic-MME:Agentic 能力究竟为多模态智能带来了什么?
摘要
多模态大语言模型(MLLMs)正从被动观察者演变为主动智能体(Agent),通过视觉扩展(调用视觉工具)和知识扩展(开放网络搜索)来解决问题。然而,现有评估体系存在明显不足:缺乏灵活的工具集成机制,将视觉工具与搜索工具割裂测试,且主要依赖最终答案进行评估。因此,现有方法无法验证工具是否被实际调用、应用是否正确或使用是否高效。为此,我们提出了 Agentic-MME,这是一个面向多模态智能体能力的过程验证型基准(Benchmark)。该基准涵盖 6 个领域和 3 个难度等级,共包含 418 个真实世界任务,旨在评估能力协同效应;其包含超过 2,000 个逐步检查点(Checkpoints),每个任务平均需耗费 10 小时以上的人工标注。每个任务均配备支持沙盒代码与 API 的统一评估框架,并包含一条基于双轴(S 轴与 V 轴)标注了逐步检查点的人类参考轨迹。为实现真正的过程级验证,我们不仅审计最终答案,更对细粒度的中间状态进行核查,并引入相对于人类轨迹的“过度思考”(Overthinking)指标以量化效率。实验结果表明,表现最佳的模型 Gemini3-pro 总体准确率为 56.3%,但在 Level-3 难度任务上显著下降至 23.0%,凸显了真实世界多模态智能体问题解决的极高难度。
一句话总结
来自中科院自动化所(CASIA)、中国科学院大学(UCAS)、东南大学(SEU)等机构的研究人员推出了 Agentic-MME,这是一个经过过程验证的基准测试,专门用于评估多模态大语言模型中视觉扩展与网络搜索的协同效应。该基准通过审计细粒度的中间状态而非仅仅关注最终答案,揭示了复杂现实世界代理任务中存在的显著性能差距。
主要贡献
- 本文介绍了 Agentic-MME,这是一个包含 418 个跨六个领域的现实世界任务的经过过程验证的基准测试,通过超过 2,000 个手动标注的逐步检查点,评估视觉工具调用与开放网络搜索之间的协同作用。
- 提出了一个统一的评估框架,支持沙盒代码执行和结构化工具 API,用于沿策略(Strategy)和视觉证据(Visual Evidence)轴审计细粒度的中间状态,超越了简单的最终答案正确性评估。
- 实验结果展示了该基准的严谨性:最佳模型的整体准确率为 56.3%,但在最困难的任务上性能显著下降至 23.0%,凸显了现实世界多模态代理问题解决的挑战。
引言
多模态大语言模型正从被动观察者演变为主动代理,它们结合视觉扩展与开放网络搜索来解决复杂的现实世界问题。先前的评估存在不足,因为它们缺乏灵活的工具集成,孤立地测试视觉和知识能力而非其协同效应,并且仅依赖最终答案的正确性,而未验证工具是否被实际调用或高效应用。为了解决这些差距,作者推出了 Agentic-MME,这是一个经过过程验证的基准测试,包含 418 个现实世界任务和超过 2,000 个逐步检查点,能够细粒度地审计中间状态,并针对人类参考轨迹衡量效率。
数据集
Agentic-MME 数据集概览
作者推出了 Agentic-MME,这是一个经过过程验证的基准测试,旨在通过将主动视觉操作与开放网络搜索相结合来评估多模态代理能力。
-
数据集构成与来源
- 该数据集包含 418 个现实世界任务,涵盖 6 个异构领域和 35 个子类别。
- 高分辨率、视觉复杂的图像源自开放网络,专门策划以包含需要多样化视觉工具包的场景,如超大图像、低光环境、折叠文档和隐写视觉内容。
- 该集合确保超过 40% 的实例需要恢复占据图像面积不到 10% 的高度局部化信息。
-
每个子集的关键细节
- Level 1(视觉扩展重点): 仅限于单一视觉操作(如裁剪或旋转)的任务,旨在揭示隐藏证据,无需外部搜索。
- Level 2(视觉 + 知识扩展): 需要简单结合视觉操作和网络搜索的任务,通常可在三轮交互内解决。
- Level 3(协同耦合): 高级场景,需要迭代、交错地执行视觉和搜索工具,以解决歧义或交叉验证假设。
- 该基准包含 13 种不同的视觉操作和 4 种可供代理使用的开放网络检索工具。
-
数据使用与训练策略
- 该数据集用于评估而非训练,为沙盒 Python 代码和函数调用 API 提供了标准化的执行框架。
- 评估依赖于超过 2,000 个人工标注的逐步检查点,沿两个轴审计中间行为:V 轴用于视觉工具意图和工件忠实度,S 轴用于搜索策略和检索答案的正确性。
- 作者采用“过度思考”(Overthink)指标,通过比较代理行为与人类参考轨迹来惩罚冗余的工具调用。
-
处理与标注细节
- 模型在环的逆向起草(Model-in-the-Loop Backward Drafting): 标注者使用最先进的模型识别被动检查中遗漏的视觉细节,然后应用工具隔离证据,并验证模型能否感知处理后的图像,最后起草最终问题。
- 细粒度逐步标注: 参考轨迹中的每一步都包括自然语言意图描述、具体的工具操作、与测试问题配对的真实中间视觉工件,以及带有已验证 URL 的搜索关键词记录。
- 质量控制: 任务经过人机协同验证,独立验证者端到端地解决任务,并通过逐步神谕(oracle)指导测试模型,以确保证据是可感知的。
- 裁剪与坐标策略: 视觉操作使用归一化坐标 [0-1000],其中 (0,0) 为左上角,处理后的图像通过索引跟踪(例如,Image 1 对应 transformed_image_1.png),以在不同编码模式间保持一致性。
方法
作者提出了一种过程感知的代理框架,旨在通过视觉操作与外部知识检索的结合来处理复杂的多模态推理任务。该系统将任务分为三个不同的复杂度级别,以确保对代理能力进行全面评估。请参阅框架图,该图展示了从单一决定性视觉操作到多步工作流,以及在歧义下进行交叉验证的模糊搜索的演进过程。

为了生成高质量的训练和评估数据,作者采用了一个结构化流程。如下图所示,该过程始于从开放互联网获取高分辨率、视觉复杂的图像。随后进行逆向起草,由 SOTA 多模态大语言模型验证可感知性,接着标注意图和工具操作,最后通过共识和审计进行质量保证。

在推理阶段,代理以 ReAct 模式运行,交错进行思考、行动和观察。每一步都配有视觉真值(V-GT),以确保代理正确隔离相关区域。请参阅带有视觉真值和工具操作的逐步推理示例,其中代理隔离了一块黑板,增强了对比度,并读取了文本"Eat. Drink. Talk."。

该框架依赖于标准化的、兼容 OpenAI 的函数调用接口来执行工具。原子图像工具包括几何变换(如裁剪、旋转、翻转和调整大小)以及增强滤镜(如自动对比度、锐化和去噪)。此外,网络检索工具允许通过 Google 搜索、Google Lens 和网页抓取进行知识扩展。
评估沿两个正交轴进行:策略(S-axis)和视觉证据(V-axis)。S-axis 验证高层计划和工具调用的正确性,而 V-axis 明确检查中间视觉工件是否包含回答问题所需的决定性证据。
实验
- 建立了一个统一的评估框架,用于比较两种交互模式下的异构代理:沙盒代码生成和结构化原子工具调用,验证了标准化的工件协议能够在不同模型行为下实现公平的基准测试。
- 在 Agentic-MME 基准上的实验表明,所有当前模型在复杂多步任务上均显著低于人类性能,证实了工具对于解决难题至关重要,但代理仍缺乏可靠的规划和执行能力。
- 闭源模型的表现始终优于开源模型,这种差距主要由更优越的搜索规划和检索策略驱动,而非基本的工具调用技能。
- 结构化原子 API 通常比代码生成产生更高的准确率和效率,因为它降低了认知负荷和语法错误,尽管代码模式在灵活的自定义视觉转换方面仍保留独特的潜力。
- 对失败模式的分析表明,模型经常遭受行动犹豫、视觉操作执行不忠实以及过度思考循环的困扰,而逐步人工标注被证明能有效引导更好的规划,且不会导致性能饱和。
- 验证研究证实,该基准确实需要主动的视觉定位和协同工具使用,因为仅靠纯文本或被动感知无法解决这些任务,并且自动化评估与人类判断高度一致。