Command Palette

Search for a command to run...

13 天前

MCP-AgentBench:通过MCP中介工具评估真实世界语言Agent性能

Zikang Guo Benfeng Xu Chiwei Zhu Wentao Hong Xiaorui Wang Zhendong Mao

MCP-AgentBench:通过MCP中介工具评估真实世界语言Agent性能

摘要

模型上下文协议(Model Context Protocol, MCP)正迅速崛起为一项关键的开放标准,旨在提升智能体与工具之间的集成性与互操作性,有望开启一个强大、互联且真正实用的智能体式人工智能新时代。然而,尽管MCP的采用日益广泛,现有评估基准往往无法真实反映该新范式下智能体的实际表现,导致对其实际应用价值产生误判,并难以可靠地区分不同智能体的能力水平。为弥合这一关键的评估鸿沟,我们提出MCP-AgentBench——一个专为严格评估MCP驱动下语言智能体工具交互能力而设计的综合性基准。MCP-AgentBench的核心贡献包括:构建了一个由33个运行中服务器组成的稳健MCP测试环境,集成188种不同工具;开发了一套包含600个系统化设计查询的基准测试集,覆盖6个不同复杂度的交互类别;并提出MCP-Eval,一种以结果为导向的新型评估方法,强调真实世界任务的成功率。通过对主流语言智能体的广泛实证评估,我们获得了基础性洞见。MCP-AgentBench旨在为研究社区提供一个标准化、可靠的评估框架,助力构建、验证与推进能够充分释放MCP变革性优势的智能体,从而加速实现真正具备能力且高度互操作的AI系统。

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供