Command Palette
Search for a command to run...
MCP-Cosmos:用于在 MCP 环境中执行复杂任务的、由世界模型增强的 Agent
MCP-Cosmos:用于在 MCP 环境中执行复杂任务的、由世界模型增强的 Agent
Giridhar Ganapavarapu Dhaval Patel
摘要
标题:MCP-Cosmos:将生成式世界模型融入模型上下文协议以实现预测性任务自动化摘要:模型上下文协议(MCP)统一了大型语言模型(LLMs)与外部工具之间的接口,然而,在代理(agents)如何概念化其运行环境方面仍存在根本性差距。当前范式呈现两极分化:任务级规划往往忽视执行时的动态变化,而反应式执行则缺乏长期视野。我们提出了MCP-Cosmos,这是一个将生成式世界模型(WM)融入MCP生态系统的框架,以实现预测性任务自动化。通过统一三种截然不同的技术——MCP、世界模型和代理(agent),我们证明了一种“自带世界模型”(BYOWM)策略,使代理能够在执行前在潜在空间中模拟状态转换并优化计划。我们在20多个MCP-Bench任务上,使用两种策略(即ReAct和SPIRAL)、2个规划模型和3个代表性世界模型进行了实验。我们观察到代理(agent)在环境交互关键绩效指标(KPI)方面有所改善,例如工具成功率和工具参数准确性。该框架还提供了诸如“执行质量”等新指标,以生成关于世界模型相对于基线有效性的新见解。
一句话总结
MCP-Cosmos 将生成式世界模型整合至 Model Context Protocol,通过“自带世界模型”(Bring Your Own World Model)策略实现预测性任务自动化。该策略在潜在空间中模拟状态转移并优化计划,在使用两种规划模型和三种世界模型、以 ReAct 和 SPIRAL 策略评估的 20 多项 MCP-Bench 任务中,展现了更高的工具调用成功率与参数准确性。
核心贡献
- MCP-Cosmos 提出了一种模块化的“自带世界模型”(BYOWM)架构,将异构世界模型整合至 Model Context Protocol 生态中。该框架支持预测性认知,使 agent 能够在执行实际工具调用前,于潜在空间中模拟环境状态转移。
- 在 MCP-Bench 上针对 300 多条轨迹开展的对比实验表明,结合多种世界模型与 ReAct、SPIRAL 规划策略,相较于标准反应式基线,工具调用成功率与参数准确性均获得可测量的提升。
- 本研究提出“执行质量”(Execution Quality)指标,通过惩罚不必要的工具调用来评估预测效率,并系统分析了当前 agentic 系统中评估世界模型有效性的现有方法缺口。
引言
本研究利用 Model Context Protocol 标准化 LLM 与工具之间的交互,以满足动态软件环境中对可靠 agentic 自动化的迫切需求。现有方法主要分为两类:以规划为中心的系统忽略执行阶段的随机性,而反应式 agent 则受限于视野短视,导致工具调用冗余及不可逆的状态失败。为突破上述局限,本文提出 MCP-Cosmos 框架。该框架通过模块化的“自带世界模型”策略,将生成式世界模型整合至 MCP 生态中。该架构允许 agent 在执行实际动作前,于潜在空间中模拟状态转移并优化轨迹,从而直接提升工具调用成功率与参数准确性。此外,本文提出“执行质量”指标以更精准地量化预测效率,并指出当前评估方法论中存在的不足。
数据集
-
数据集构成与来源: 本文选用 MCP-Bench 作为主要评估框架,相较于其他广泛替代方案,更看重其生态级设计。该数据集源自 28 个在线 MCP 服务器与 257 个跨领域工具,用于模拟复杂且贴近真实的 agent 交互场景。
-
子集详情与筛选规则: 精心筛选出包含 24 项任务的高性价比子集,重点聚焦双服务器与三服务器场景。该子集覆盖 12 种独立任务类型,包含 300 多条轨迹。筛选条件侧重于需跨域工具依赖的任务,按服务器数量划分难度等级,并在附录中详细记录具体任务 ID 与服务器映射关系。
-
数据用途与处理: 该数据集仅用于评估而非训练,未进行训练集划分或混合比例调整。任务与三种 agentic 架构及三种世界模型相结合,用于评估多工具输出预测与规划稳定性。处理过程包含引入模糊指令以测试多步 grounding 能力,并通过规则驱动与裁判驱动指标评估结果,所有指标均经过高人类一致性验证。
-
额外处理与元数据构建: 评估流程优先选择能跨领域严格测试 agent 状态维持能力的场景。数据结构化设计旨在突出双向服务器交互,明确追踪规划失败模式与工具协调复杂度,以支持细粒度的性能分析。完整的任务分布与服务器映射均归档于附录,以确保研究可复现。
方法
本文提出一个两阶段框架,用于将世界模型整合至 Model Context Protocol (MCP) 环境中的多轮规划与执行流程。整体流程包含基于仿真的规划阶段与实际执行阶段,具体工作流如图所示。在初始阶段,agent 利用世界模型模拟潜在动作序列,无需与实际工具或环境交互,从而避免执行开销。agent 规划器生成工具调用,并利用模拟观测结果迭代优化计划,直至形成可行计划或满足终止条件。这些动作与模拟观测对会被累积至世界模型轨迹中,支持多条路径的高效探索。世界模型在潜在空间中运行,模拟环境并为给定的工具调用与用户请求返回模拟工具响应作为观测结果。该抽象设计支持多样化的仿真实现,例如已开发的 AWM 4B 模型专门用于支持合成环境生成。
规划流程在算法 1 中形式化描述。agent 从任务指令推导出的初始状态开始,利用规划策略迭代生成动作。针对每个动作,世界模型预测模拟伪观测结果,用于更新状态并继续规划循环。该仿真机制使 agent 能够在无需真实环境交互的情况下,对未来状态进行推演并做出合理决策。累积的世界模型轨迹作为选择最优计划的基础。该过程可通过 LLM 等非确定性策略模型,或基于奖励的 MCTS 等确定性算法实现。
在第二阶段,选定计划将在实际环境中执行。agent 按顺序执行各项工具调用,并从 MCP 服务器接收真实观测结果。若动作执行失败,算法可选择性地调用计划调整机制以修改剩余计划。由于该步骤计算成本较高,基准测试中未将其纳入。成功执行的动作-观测对将被记录至执行轨迹中。计划完成后,agent 利用摘要技术生成最终答案。算法返回三项关键输出:最终答案、执行计划与完整执行轨迹,从而提升规划与执行过程的可解释性。
实验
评估框架采用分层指标与新颖的“执行质量”度量,对多种 agent-世界模型配置进行测试,以验证显式世界模型如何影响主动规划与执行效率。主要实验表明,相较于基线 ReAct agent,引入世界模型显著提升了工具选择与参数准确性。消融实验进一步验证,显式模型能有效约束高能力规划器引发的昂贵且激进的探索行为。最终结论表明,整合专用世界模型对于引导目标明确的 agent 行为至关重要。尽管当前存在计算与环境限制,该研究仍为未来 agentic 规划研究提供了结构化基础。
本文采用分层框架评估世界模型整合对 agent 性能的影响,该框架涵盖任务完成度、工具选择、规划有效性及执行质量。结果表明,世界模型增强型 agent 在工具选择与参数准确性上优于基线,而基线在任务完成与依赖感知方面仍占优势,凸显了效率与成功率之间的权衡。提出的执行质量指标更准确地反映了工具使用效率,揭示出缺乏世界模型约束时,更强规划器会导致过度探索。世界模型的整合提升了工具选择与参数准确性,但未改善任务完成度或依赖感知。该指标进一步显示,无世界模型的强规划器会产生冗余工具调用与执行开销。世界模型通过限制探索行为并将执行聚焦于已验证计划,有效约束了强规划器,从而提升整体效率。
本文采用分层框架评估世界模型注入对 agent 性能的影响,重点考察任务完成度、工具选择与规划有效性。结果显示,世界模型增强型 agent 在工具选择与参数准确性上优于 ReAct 基线,但基线在任务完成与依赖感知方面依然领先。世界模型的整合亦带来计算成本上升,部分配置消耗的 token 显著高于其他配置。世界模型增强型 agent 虽提升了工具选择与参数准确性,但在任务完成与依赖感知上未能超越基线。整合世界模型增加了计算开销,部分配置的 token 消耗远高于基线。新引入的执行质量指标能有效区分高效完成任务的 agent 与依赖重复重试及冗余工具调用才成功的 agent。
本文对比了不同 agent 配置(含/不含世界模型),重点关注效率与性能指标。结果表明,相较于基线,世界模型增强型 agent 减少了工具调用次数与执行时间,部分配置在效率上实现显著提升。强规划器会导致更高的工具调用量与更长的执行时间,但世界模型有助于约束该行为,从而改善整体执行质量。世界模型增强型 agent 降低了工具调用次数与执行时间。强规划器增加了调用量与耗时,但世界模型有效限制了此类探索行为。SPIRAL-Exec 配置展现出最低的工具调用量与执行时间,表明其具备更高效率。
本文基于结构化规划框架评估世界模型注入对 agent 性能的影响,对比了不同规划器与世界模型配置。结果表明,世界模型增强型 agent 实现了更好的工具选择与参数准确性,但效果因世界模型类型与规划器能力而异。在多数情况下,通用 LLM 的表现优于专用模型。研究同时强调了任务完成度、执行效率与计算成本之间的权衡,表明世界模型可通过约束强规划器的探索行为来引导更高效规划。世界模型增强提升了工具选择与参数准确性,但未始终如一地改善任务完成度。尽管专用模型针对相关环境进行过训练,基于通用 LLM 的世界模型在多数配置中仍表现更优。强规划器会提高工具调用频率与执行时间,但世界模型的整合减少了不必要的探索,提升了执行效率。
本文采用分层框架评估世界模型注入对 agent 性能的影响,涵盖任务完成度、工具选择与规划有效性。结果显示,世界模型增强型 agent 在工具选择与参数准确性上超越 ReAct 基线,而 ReAct 在任务完成与依赖感知方面依然更强,反映出效率与完成度之间的权衡。新的执行质量指标指出,尽管任务完成率较低,但拥有世界模型的 agent 通过减少冗余工具调用实现了更优的执行效率。消融实验表明,强规划器无法弥补世界模型的缺失,反而会导致探索增加与计算成本上升,凸显了世界模型在约束规划器行为方面的重要性。相较于 ReAct 基线,世界模型增强型 agent 改进了工具选择与参数准确性。ReAct 虽达成更高的任务完成度与依赖感知,但牺牲了工具使用效率。强规划器增加了工具调用与执行时间,进一步印证了世界模型约束探索行为的必要性。
实验采用分层评估框架,考察世界模型整合如何影响 agent 在任务完成、工具选择与规划效率方面的表现。结果证实,世界模型整合通过约束探索行为并降低冗余计算开销,显著提升了工具选择准确率与执行效率。然而,该增强效果也揭示了明显的权衡关系,即不含世界模型的基线 agent 在任务完成与依赖感知方面始终表现更优。最终结论表明,尽管世界模型能有效引导强规划器实现更高效执行,但在整体任务完成度上并未全面超越传统基线。