13 天前

RL-PLUS:基于混合策略优化的LLM强化学习能力边界坍塌对抗方法

Yihong Dong, Xue Jiang, Yongding Tao, Huanyu Liu, Kechi Zhang, Lili Mou, et al
RL-PLUS:基于混合策略优化的LLM强化学习能力边界坍塌对抗方法
摘要

基于可验证奖励的强化学习(Reinforcement Learning with Verifiable Reward, RLVR)显著提升了大语言模型(Large Language Models, LLMs)的复杂推理能力。然而,由于其固有的在线策略(on-policy)机制,加之大语言模型庞大的动作空间和稀疏的奖励信号,RLVR难以突破基础模型的内在能力边界。此外,RLVR还可能导致能力边界坍塌,从而缩小模型的问题求解范围。为解决这一问题,我们提出了一种新方法——RL-PLUS,该方法通过协同内部探索(即“思考”)与外部数据(即“学习”),实现更强的推理能力,并突破基础模型的能力限制。RL-PLUS整合了两个核心组件:多重要性采样(Multiple Importance Sampling),用于缓解外部数据带来的分布偏移问题;以及基于探索的优势函数(Exploration-Based Advantage Function),用以引导模型走向高价值且尚未探索的推理路径。我们通过理论分析与大量实验,充分验证了该方法的优越性与泛化能力。实验结果表明,在六个数学推理基准测试中,RL-PLUS相较于现有RLVR方法取得了最先进性能,并在六个分布外推理任务中展现出更优表现。此外,该方法在多种不同模型家族中均实现了持续且显著的性能提升,平均相对改进幅度达21.1%至69.2%。多个基准上的Pass@k曲线进一步表明,RL-PLUS有效缓解了能力边界坍塌的问题。