Command Palette
Search for a command to run...
Shulin Liu Dong Du Tao Yang Yang Li Boyu Qiu

摘要
近年来,大型语言模型(LLMs)的进展得益于可验证奖励的强化学习(RLVR)与测试时扩展(test-time scaling)技术。然而,LLMs输出长度有限,限制了单次推理过程中所能实现的推理深度。多智能体推理系统通过引入包含求解器(Solver)、验证器(Verifier)和修正器(Corrector)在内的多个智能体,实现对解决方案的迭代优化,为解决该问题提供了有前景的替代方案。尽管此类方法在闭源模型(如Gemini 2.5 Pro)中表现出色,但在开源模型上的泛化能力仍受限,主要由于缺乏足够的批评与修正能力。为此,我们提出MarsRL——一种基于智能体流水线并行的新型强化学习框架,旨在协同优化系统中的所有智能体。MarsRL引入了面向特定智能体的奖励机制,以缓解奖励噪声问题,并采用受流水线启发的训练策略,显著提升了处理长轨迹任务的效率。在Qwen3-30B-A3B-Thinking-2507模型上的实验表明,MarsRL将AIME2025的准确率从86.5%提升至93.3%,BeyondAIME的准确率从64.9%提升至73.8%,甚至超越了更大规模的Qwen3-235B-A22B-Thinking-2507模型。这些结果凸显了MarsRL在推动多智能体推理系统发展方面的潜力,并拓展了其在多样化推理任务中的适用性。