Command Palette

Search for a command to run...

6 小时前

多Agent深度研究:基于M-GRPO训练多Agent系统

多Agent深度研究:基于M-GRPO训练多Agent系统

摘要

多智能体系统在通用推理任务中表现优异,然而,缺乏针对特定领域的训练限制了其准确性。目前的训练方法通常为系统中的所有智能体训练一个统一的大型语言模型(LLM)。由于不同智能体潜在的数据分布存在差异,这种做法可能会限制系统的整体性能。因此,利用独立的 LLM 来训练多智能体系统应是下一步的研究方向。然而,这种方法带来了诸多优化挑战:例如,各智能体的运行频率不同,采样轨迹(rollouts)中涉及不定量的子智能体调用,且各智能体通常部署在不同的服务器上,从而阻断了端到端的梯度传播。为解决上述问题,我们提出了 M-GRPO。这是对组相对策略优化(Group Relative Policy Optimization, GRPO)的一种分层扩展,专为包含主智能体(规划器)和多个子智能体(多轮工具执行器)的垂直多智能体系统而设计。M-GRPO 为主智能体和子智能体计算组相对优势,从而实现分层信用分配(hierarchical credit assignment)。此外,该方法还引入了一种轨迹对齐机制,即使在子智能体调用次数变化的情况下,也能生成固定大小的训练批次。我们部署了一套解耦的训练流程,使各智能体运行于独立的服务器上,并仅通过共享存储交换极少量的统计信息,从而在无需跨服务器反向传播的情况下实现了可扩展训练。在真实世界的基准测试(如 GAIA、XBench-DeepSearch 和 WebWalkerQA)中,M-GRPO 的表现持续优于单智能体 GRPO 以及仅冻结子智能体的多智能体 GRPO,展现出更高的稳定性与样本效率。这些结果表明,对齐异构轨迹以及对专用智能体进行解耦优化,能够有效提升工具增强型推理任务的性能。

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供