
摘要
通过强化学习(RL)对语言模型(LMs)进行后训练,可在无需监督微调的情况下提升其复杂推理能力,DeepSeek-R1-Zero 已经验证了这一点。然而,将强化学习有效应用于语言模型需要大规模并行化以扩展推理能力,这带来了非 trivial 的技术挑战(如延迟、内存占用和系统可靠性),同时伴随不断增长的财务成本。为此,我们提出了 Swarm sAmpling Policy Optimization(SAPO),一种完全去中心化且异步的强化学习后训练算法。SAPO 针对异构计算节点组成的去中心化网络而设计,每个节点自主管理自身的策略模型,同时与其他节点“共享”轨迹(rollouts);该算法不依赖于对延迟、模型同质性或硬件配置的显式假设,节点也可按需独立运行。因此,该算法在扩展强化学习后训练时避免了常见的性能瓶颈,同时还能(甚至鼓励)实现新的可能性。通过在全网范围内“共享”的轨迹进行采样,SAPO 能够使“顿悟时刻”(Aha moments)在节点间传播,从而加速学习过程的启动与演进。本文实验表明,SAPO 在受控环境中实现了最高达 94% 的累积奖励提升。此外,我们还分享了在由 Gensyn 社区成员贡献的数千节点网络上进行测试所获得的宝贵经验——这些成员在多样化的硬件平台和模型上运行该算法,参与了一次开源演示。