Command Palette
Search for a command to run...
Gang Li Ming Lin Tomer Galanti Zhengzhong Tu Tianbao Yang

摘要
DeepSeek-R1 近期的成功与开源特性,使得面向大模型推理(Large Reasoning Models, LRMs)的强化学习方法——群体相对策略优化(Group Relative Policy Optimization, GRPO)受到了广泛关注。在本工作中,我们针对二元奖励设定下的 GRPO 目标函数进行了分析,揭示了其在问题层级上存在的固有难度偏差问题。同时,我们发现了 GRPO 与监督学习中传统判别式方法之间存在的内在联系。基于这些洞察,我们提出了一种全新的判别式约束优化(Discriminative Constrained Optimization, DisCO)框架,用于强化 LRMs 的训练,该框架建立在判别式学习的基本原则上。DisCO 与 GRPO 及其近期变体的主要区别体现在三个方面:(1)它用由评分函数定义的判别式目标替代了原有的群体相对目标;(2)摒弃了基于裁剪(clipping)的代理目标,转而采用无需裁剪的强化学习代理目标作为评分函数;(3)采用一种简单而有效的约束优化方法,以有效控制 KL 散度约束。因此,DisCO 相较于 GRPO 及其变体展现出显著优势:(i)通过采用判别式目标,完全消除了难度偏差;(ii)通过引入非裁剪评分函数与约束优化机制,有效缓解了 GRPO 及其变体中存在的熵不稳定性问题,实现了更长且更稳定的训练动态;(iii)能够融合先进的判别式学习技术,以应对数据不平衡问题——在训练过程中,大量问题生成的负向回答数量远多于正向回答。我们在提升 SFT 微调模型数学推理能力的实验中验证了 DisCO 的性能。结果表明,DisCO 显著优于 GRPO 及其改进变体(如 DAPO),在六项基准任务上,对于 15 亿参数模型,平均性能分别比 GRPO 提升 7%,比 DAPO 提升 6%。