Chang Gao Chujie Zheng Xiong-Hui Chen Kai Dang Shixuan Liu Bowen Yu An Yang Shuai Bai Jingren Zhou Junyang Lin

摘要
强化学习(Reinforcement Learning, RL)在提升大语言模型(Large Language Models, LLMs)推理能力方面发挥着日益重要的作用,然而稳定且高效的策略优化仍面临挑战。在基于分层专家混合(Mixture-of-Experts)的模型中,词元级重要性比率通常表现出较高的方差,这一问题尤为突出,导致更新过程不稳定。现有的基于分组的策略优化方法,如GSPO和GRPO,通过硬截断(hard clipping)来缓解该问题,但这种机制难以同时兼顾优化的稳定性与有效学习。为此,我们提出一种新的方法——软自适应策略优化(Soft Adaptive Policy Optimization, SAPO),其用一个平滑、受温度控制的门控机制替代硬截断,能够自适应地衰减离策略(off-policy)更新,同时保留有用的训练信号。与GSPO和GRPO相比,SAPO兼具序列一致性与词元自适应性:与GSPO类似,SAPO保持了序列层面的一致性,但其软门控机制构建了一个连续的信任区域,避免了GSPO中脆弱的硬截断边界。当某序列中仅包含少数离策略词元时,GSPO会完全抑制该序列的所有梯度,而SAPO则仅对异常词元进行选择性降权,保留近策略词元的有用学习信号,从而显著提升样本效率。相较于GRPO,SAPO将硬词元级截断替换为平滑、温度可控的缩放机制,实现了更具信息量且更稳定的更新。在数学推理基准测试中的实证结果表明,SAPO在相近训练预算下展现出更优的训练稳定性与更高的Pass@1性能。此外,我们将SAPO应用于Qwen3-VL模型系列的训练,结果表明,SAPO在多种任务类型和不同模型规模下均能带来一致的性能提升。总体而言,SAPO为大语言模型的强化学习训练提供了一种更可靠、可扩展且高效的优化策略。