Command Palette
Search for a command to run...
Wenhao Wang Peizhi Niu Zhao Xu Zhaoyu Chen Jian Du Yaxin Du Xianghe Pang Keduan Huang et al

摘要
大型语言模型(LLMs)越来越多地依赖外部工具来执行复杂且贴近现实的任务,然而其在利用快速扩展的模型上下文协议(Model Contextual Protocol, MCP)生态系统方面的能力仍十分有限。现有的MCP研究覆盖的服务器数量较少,高度依赖昂贵的手动数据整理,且缺乏训练支持,严重制约了MCP在真实场景中部署的进展。为克服上述局限,我们提出MCP-Flow,一种由网络代理驱动的自动化流水线,可实现大规模服务器发现、数据合成与模型训练。MCP-Flow从1166个服务器和11536个工具中收集并筛选数据,生成了68,733个高质量的指令-函数调用对以及6439条任务轨迹,其规模与多样性远超以往工作。大量实验表明,MCP-Flow在提升MCP工具选择、函数调用生成以及增强智能体任务执行性能方面均表现出显著优势。因此,MCP-Flow为提升大型语言模型智能体在真实MCP环境中的能力提供了可扩展的基础。