HyperAI超神经

近年来，大型语言模型（LLMs）的进展得益于可验证奖励的强化学习（RLVR）与测试时扩展（test-time scaling）技术。然而，LLMs输出长度有限，限制了单次推理过程中所能实现的推理深度。多智能体推理系统通过引入包含求解器（Solver）、验证器（Verifier）和修正器（Corrector）在内的多个智能体，实现对解决方案的迭代优化，为解决该问题提供了有前景的替代方案。尽管此类方法在闭源模型（如Gemini 2.5 Pro）中表现出色，但在开源模型上的泛化能力仍受限，主要由于缺乏足够的批评与修正能力。为此，我们提出MarsRL——一种基于智能体流水线并行的新型强化学习框架，旨在协同优化系统中的所有智能体。MarsRL引入了面向特定智能体的奖励机制，以缓解奖励噪声问题，并采用受流水线启发的训练策略，显著提升了处理长轨迹任务的效率。在Qwen3-30B-A3B-Thinking-2507模型上的实验表明，MarsRL将AIME2025的准确率从86.5%提升至93.3%，BeyondAIME的准确率从64.9%提升至73.8%，甚至超越了更大规模的Qwen3-235B-A22B-Thinking-2507模型。这些结果凸显了MarsRL在推动多智能体推理系统发展方面的潜力，并拓展了其在多样化推理任务中的适用性。

MarsRL：通过代理流水线并行化的强化学习推进多Agent推理系统

Shulin Liu Dong Du Tao Yang Yang Li Boyu Qiu

摘要

用 AI 构建 AI

Hyper Newsletters

Command Palette

MarsRL：通过代理流水线并行化的强化学习推进多Agent推理系统

Shulin Liu Dong Du Tao Yang Yang Li Boyu Qiu

摘要

用 AI 构建 AI

Hyper Newsletters