4 个月前

摘要

模型上下文协议（Model Context Protocol, MCP）正迅速崛起为一项关键的开放标准，旨在提升智能体与工具之间的集成性与互操作性，有望开启一个强大、互联且真正实用的智能体式人工智能新时代。然而，尽管MCP的采用日益广泛，现有评估基准往往无法真实反映该新范式下智能体的实际表现，导致对其实际应用价值产生误判，并难以可靠地区分不同智能体的能力水平。为弥合这一关键的评估鸿沟，我们提出MCP-AgentBench——一个专为严格评估MCP驱动下语言智能体工具交互能力而设计的综合性基准。MCP-AgentBench的核心贡献包括：构建了一个由33个运行中服务器组成的稳健MCP测试环境，集成188种不同工具；开发了一套包含600个系统化设计查询的基准测试集，覆盖6个不同复杂度的交互类别；并提出MCP-Eval，一种以结果为导向的新型评估方法，强调真实世界任务的成功率。通过对主流语言智能体的广泛实证评估，我们获得了基础性洞见。MCP-AgentBench旨在为研究社区提供一个标准化、可靠的评估框架，助力构建、验证与推进能够充分释放MCP变革性优势的智能体，从而加速实现真正具备能力且高度互操作的AI系统。

源 PDF