Command Palette

Search for a command to run...

1 个月前

MCPMark:用于压力测试现实且全面的MCP使用的基准

MCPMark:用于压力测试现实且全面的MCP使用的基准

摘要

MCP(Model Control Protocol)标准化了大语言模型(LLMs)与外部系统之间的交互方式,为通用智能体的构建奠定了基础。然而,现有的MCP基准测试在评估范围上仍显局限:它们主要聚焦于以读取为主的任务,或交互深度有限的任务,难以真实反映现实世界工作流的复杂性与多样性。为弥补这一不足,我们提出MCPMark,一个旨在更真实、更全面评估MCP应用能力的基准测试。该基准包含127项高质量任务,由领域专家与AI智能体协作共同设计。每项任务均以精心构建的初始状态启动,并配备可编程的验证脚本,支持自动化验证。这些任务要求模型与环境进行更丰富、更多样化的交互,涵盖广泛的创建(Create)、读取(Read)、更新(Update)和删除(Delete,即CRUD)操作。我们采用一种极简智能体框架,在工具调用循环中对当前前沿的大语言模型进行了全面评估。实验结果表明,表现最优的模型gpt-5-medium仅达到52.56%的pass@1和33.86%的pass^4,而其他广受认可的强模型,如claude-sonnet-4和o3,其pass@1均低于30%,pass^4均低于15%。平均而言,大语言模型在每项任务上需执行16.2次推理循环和17.4次工具调用,显著高于以往MCP基准测试中的水平,充分体现了MCPMark作为压力测试工具的挑战性与严苛性。

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供