Command Palette
Search for a command to run...
Zikang Guo Benfeng Xu Chiwei Zhu Wentao Hong Xiaorui Wang Zhendong Mao

摘要
模型上下文协议(Model Context Protocol, MCP)正迅速崛起为一项关键的开放标准,旨在提升智能体与工具之间的集成性与互操作性,有望开启一个强大、互联且真正实用的智能体式人工智能新时代。然而,尽管MCP的采用日益广泛,现有评估基准往往无法真实反映该新范式下智能体的实际表现,导致对其实际应用价值产生误判,并难以可靠地区分不同智能体的能力水平。为弥合这一关键的评估鸿沟,我们提出MCP-AgentBench——一个专为严格评估MCP驱动下语言智能体工具交互能力而设计的综合性基准。MCP-AgentBench的核心贡献包括:构建了一个由33个运行中服务器组成的稳健MCP测试环境,集成188种不同工具;开发了一套包含600个系统化设计查询的基准测试集,覆盖6个不同复杂度的交互类别;并提出MCP-Eval,一种以结果为导向的新型评估方法,强调真实世界任务的成功率。通过对主流语言智能体的广泛实证评估,我们获得了基础性洞见。MCP-AgentBench旨在为研究社区提供一个标准化、可靠的评估框架,助力构建、验证与推进能够充分释放MCP变革性优势的智能体,从而加速实现真正具备能力且高度互操作的AI系统。