1 个月前

分享即关爱:基于集体强化学习经验共享的高效LM后训练

Jeffrey Amico, Gabriel Passamani Andrade, John Donaghy, Ben Fielding, Tristin Forbus, Harry Grieve, Semih Kara, Jari Kolehmainen, Yihua Lou, Christopher Nies, Edward Phillip Flores Nuño, Diogo Ortega, Shikhar Rastogi, Austin Virts, Matthew J. Wright
分享即关爱:基于集体强化学习经验共享的高效LM后训练
摘要

通过强化学习(RL)对语言模型(LMs)进行后训练,可在无需监督微调的情况下提升其复杂推理能力,DeepSeek-R1-Zero 已经验证了这一点。然而,将强化学习有效应用于语言模型需要大规模并行化以扩展推理能力,这带来了非 trivial 的技术挑战(如延迟、内存占用和系统可靠性),同时伴随不断增长的财务成本。为此,我们提出了 Swarm sAmpling Policy Optimization(SAPO),一种完全去中心化且异步的强化学习后训练算法。SAPO 针对异构计算节点组成的去中心化网络而设计,每个节点自主管理自身的策略模型,同时与其他节点“共享”轨迹(rollouts);该算法不依赖于对延迟、模型同质性或硬件配置的显式假设,节点也可按需独立运行。因此,该算法在扩展强化学习后训练时避免了常见的性能瓶颈,同时还能(甚至鼓励)实现新的可能性。通过在全网范围内“共享”的轨迹进行采样,SAPO 能够使“顿悟时刻”(Aha moments)在节点间传播,从而加速学习过程的启动与演进。本文实验表明,SAPO 在受控环境中实现了最高达 94% 的累积奖励提升。此外,我们还分享了在由 Gensyn 社区成员贡献的数千节点网络上进行测试所获得的宝贵经验——这些成员在多样化的硬件平台和模型上运行该算法,参与了一次开源演示。