Command Palette
Search for a command to run...

摘要
强化学习(Reinforcement Learning, RL)近年来已成为对齐与增强大语言模型(Large Language Models, LLMs)的核心范式。然而,在非策略(off-policy)设置下应用RL——即使用过去策略生成的过时数据进行训练——虽能提升样本效率,仍面临诸多挑战:策略熵急剧下降,优化过程常出现不稳定,甚至发生崩溃。通过理论分析与实证研究,我们识别出两个关键洞见:(i)优化失衡问题,即负优势样本在策略梯度中占据主导地位,抑制了有效行为的生成,并可能引发梯度爆炸;(ii)由此推导出的熵-裁剪规则(Entropy-Clip Rule)表明,PPO类目标函数中固定的裁剪机制会系统性地阻断熵增更新,导致策略过度开发(over-exploitation)而牺牲探索能力。基于上述洞察,我们提出了一种简单而高效的方法——自适应裁剪的平衡策略优化(Balanced Policy Optimization with Adaptive Clipping, BAPO),该方法动态调整裁剪边界,自适应地重新平衡正负贡献,有效保持策略熵,显著提升RL优化的稳定性。在多种非策略场景下(包括样本回放与部分回溯),BAPO均实现了快速、稳定且数据高效的训练。在AIME 2024与AIME 2025基准测试中,我们的7B参数BAPO模型超越了开源模型如SkyWork-OR1-7B;而32B参数的BAPO模型不仅在同规模模型中达到最先进水平,更优于主流闭源系统,如o3-mini与Gemini-2.5-Flash-Thinking。