Command Palette

Search for a command to run...

8 天前

MarsRL:通过代理流水线并行化的强化学习推进多Agent推理系统

Shulin Liu Dong Du Tao Yang Yang Li Boyu Qiu

MarsRL:通过代理流水线并行化的强化学习推进多Agent推理系统

摘要

近年来,大型语言模型(LLMs)的进展得益于可验证奖励的强化学习(RLVR)与测试时扩展(test-time scaling)技术。然而,LLMs输出长度有限,限制了单次推理过程中所能实现的推理深度。多智能体推理系统通过引入包含求解器(Solver)、验证器(Verifier)和修正器(Corrector)在内的多个智能体,实现对解决方案的迭代优化,为解决该问题提供了有前景的替代方案。尽管此类方法在闭源模型(如Gemini 2.5 Pro)中表现出色,但在开源模型上的泛化能力仍受限,主要由于缺乏足够的批评与修正能力。为此,我们提出MarsRL——一种基于智能体流水线并行的新型强化学习框架,旨在协同优化系统中的所有智能体。MarsRL引入了面向特定智能体的奖励机制,以缓解奖励噪声问题,并采用受流水线启发的训练策略,显著提升了处理长轨迹任务的效率。在Qwen3-30B-A3B-Thinking-2507模型上的实验表明,MarsRL将AIME2025的准确率从86.5%提升至93.3%,BeyondAIME的准确率从64.9%提升至73.8%,甚至超越了更大规模的Qwen3-235B-A22B-Thinking-2507模型。这些结果凸显了MarsRL在推动多智能体推理系统发展方面的潜力,并拓展了其在多样化推理任务中的适用性。

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供