Command Palette
Search for a command to run...

摘要
我们提出了MCP-Bench,这是一个用于评估大型语言模型(LLMs)在真实、多步骤任务中表现的基准测试。这些任务要求模型具备工具调用、跨工具协作、精确参数控制以及规划与推理能力,以完成复杂任务。MCP-Bench基于模型上下文协议(Model Context Protocol, MCP),将LLMs与28个代表性的实时MCP服务器相连,覆盖金融、旅行、科学计算和学术搜索等领域的250种工具。与以往依赖API的基准测试不同,每个MCP服务器均提供一组协同工作的互补工具,支持构建具有丰富输入-输出耦合关系的真实多步骤任务。MCP-Bench中的任务旨在检验智能体在缺乏明确工具名称的情况下,从模糊指令中准确检索相关工具的能力;对复杂目标进行多跳执行路径的规划;基于中间工具输出对响应进行语义锚定;以及协调跨领域的工作流。这些能力在现有依赖显式工具定义、浅层多步流程和孤立领域操作的基准测试中未能得到充分评估。为此,我们提出了一套多维度的评估框架,涵盖工具级的模式理解与使用、轨迹级的规划能力,以及任务完成度。在20个先进LLM上的实验表明,当前模型在MCP-Bench任务中仍面临显著挑战。代码与数据已开源:https://github.com/Accenture/mcp-bench。