5 个月前

Zhenting Wang Qi Chang Hemani Patel Shashank Biju Cheng-En Wu Quan Liu Aolin Ding Alireza Rezazadeh Ankit Shah Yujia Bao

摘要

我们提出了MCP-Bench，这是一个用于评估大型语言模型（LLMs）在真实、多步骤任务中表现的基准测试。这些任务要求模型具备工具调用、跨工具协作、精确参数控制以及规划与推理能力，以完成复杂任务。MCP-Bench基于模型上下文协议（Model Context Protocol, MCP），将LLMs与28个代表性的实时MCP服务器相连，覆盖金融、旅行、科学计算和学术搜索等领域的250种工具。与以往依赖API的基准测试不同，每个MCP服务器均提供一组协同工作的互补工具，支持构建具有丰富输入-输出耦合关系的真实多步骤任务。MCP-Bench中的任务旨在检验智能体在缺乏明确工具名称的情况下，从模糊指令中准确检索相关工具的能力；对复杂目标进行多跳执行路径的规划；基于中间工具输出对响应进行语义锚定；以及协调跨领域的工作流。这些能力在现有依赖显式工具定义、浅层多步流程和孤立领域操作的基准测试中未能得到充分评估。为此，我们提出了一套多维度的评估框架，涵盖工具级的模式理解与使用、轨迹级的规划能力，以及任务完成度。在20个先进LLM上的实验表明，当前模型在MCP-Bench任务中仍面临显著挑战。代码与数据已开源：https://github.com/Accenture/mcp-bench。

源 PDF 查看代码

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

5 个月前

Zhenting Wang Qi Chang Hemani Patel Shashank Biju Cheng-En Wu Quan Liu Aolin Ding Alireza Rezazadeh Ankit Shah Yujia Bao

摘要

我们提出了MCP-Bench，这是一个用于评估大型语言模型（LLMs）在真实、多步骤任务中表现的基准测试。这些任务要求模型具备工具调用、跨工具协作、精确参数控制以及规划与推理能力，以完成复杂任务。MCP-Bench基于模型上下文协议（Model Context Protocol, MCP），将LLMs与28个代表性的实时MCP服务器相连，覆盖金融、旅行、科学计算和学术搜索等领域的250种工具。与以往依赖API的基准测试不同，每个MCP服务器均提供一组协同工作的互补工具，支持构建具有丰富输入-输出耦合关系的真实多步骤任务。MCP-Bench中的任务旨在检验智能体在缺乏明确工具名称的情况下，从模糊指令中准确检索相关工具的能力；对复杂目标进行多跳执行路径的规划；基于中间工具输出对响应进行语义锚定；以及协调跨领域的工作流。这些能力在现有依赖显式工具定义、浅层多步流程和孤立领域操作的基准测试中未能得到充分评估。为此，我们提出了一套多维度的评估框架，涵盖工具级的模式理解与使用、轨迹级的规划能力，以及任务完成度。在20个先进LLM上的实验表明，当前模型在MCP-Bench任务中仍面临显著挑战。代码与数据已开源：https://github.com/Accenture/mcp-bench。

源 PDF 查看代码

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供