HyperAI超神经
2 days ago

SPIRAL:零和博弈中的自我对弈通过多智能体多轮强化学习激励推理

Bo Liu, Leon Guertler, Simon Yu, Zichen Liu, Penghui Qi, Daniel Balcells, Mickel Liu, Cheston Tan, Weiyan Shi, Min Lin, Wee Sun Lee, Natasha Jaques
SPIRAL:零和博弈中的自我对弈通过多智能体多轮强化学习激励推理
摘要

近期在强化学习领域的进展表明,语言模型可以通过在具有可验证奖励的任务上进行训练来发展出复杂的推理能力,但这些方法依赖于人工整理的问题-答案对以及特定领域的奖励设计。我们引入了SPIRAL,一种自我博弈框架,其中模型通过与不断改进的自身版本进行多轮次、零和游戏的对抗来学习,从而消除了对人类监督的需求。通过自我博弈,SPIRAL生成了一个无限的、逐步增加难度的问题课程,因为模型必须不断适应更强的对手。为了实现大规模的自我博弈训练,我们实现了一个完全在线的、多轮次、多代理的强化学习系统,并提出了角色条件下的优势估计(Role-Conditioned Advantage Estimation, RAE)以稳定多代理训练。使用SPIRAL进行零和游戏的自我博弈训练可以产生广泛迁移的推理能力。仅在库恩扑克(Kuhn Poker)上训练Qwen3-4B-Base模型即可在数学推理方面提高8.6%,在一般推理方面提高8.4%,超过了基于25,000个专家游戏轨迹的监督微调(SFT)。分析显示,这种迁移能力是通过三种认知模式实现的:系统性分解、期望值计算和逐案分析。多游戏训练(井字游戏、库恩扑克、简单谈判)进一步提升了性能,因为每种游戏都能培养不同的推理优势。将SPIRAL应用于一个强大的推理模型(DeepSeek-R1-Distill-Qwen-7B)仍然可以带来平均2.0%的性能提升。这些结果表明,零和游戏自然地培养了可迁移的推理能力,为自主推理的发展指明了一条有前景的方向。