强化学习中推理语言模型的熵机制
Ganqu Cui, Yuchen Zhang, Jiacheng Chen, Lifan Yuan, Zhi Wang, Yuxin Zuo, Haozhan Li, Yuchen Fan, Huayu Chen, Weize Chen, Zhiyuan Liu, Hao Peng, Lei Bai, Wanli Ouyang, Yu Cheng, Bowen Zhou, Ning Ding
发布日期: 5/29/2025

摘要
本文旨在克服在大规模强化学习(RL)中使用大语言模型(LLMs)进行推理时的一个主要障碍,即策略熵的崩溃。这种现象在没有熵干预的大规模强化学习运行中普遍存在,表现为在训练初期策略熵急剧下降,导致探索能力减弱,并且伴随策略性能的饱和。在实践中,我们建立了熵 (H) 与下游性能 (R) 之间的转换方程 (R = -a \cdot e^H + b)。这一经验规律强烈表明,策略性能是以牺牲策略熵为代价的,因此当熵耗尽时,性能会受到限制,其上限完全可预测:(H = 0) 时,(R = -a + b)。我们的发现强调了为了实现计算资源的扩展以支持强化学习的持续探索,必须进行熵管理。为此,我们从理论和实证两个方面研究了熵动态变化。我们的推导指出,策略熵的变化是由动作概率与其对数几率变化之间的协方差驱动的,在使用类似策略梯度算法时,这一协方差与其优势成正比。实证研究表明,协方差项和熵差异值完全匹配,支持了理论结论。此外,在整个训练过程中,协方差项大多保持正值,进一步解释了为什么策略熵会单调下降。通过理解熵动态变化背后的机制,我们提出了通过限制高协方差标记的更新来控制熵的方法。具体而言,我们提出了两种简单而有效的方法:Clip-Cov 和 KL-Cov。前者对高协方差标记进行裁剪,后者则对这些标记施加KL惩罚。实验结果表明,这些方法能够促进探索行为,从而帮助策略摆脱熵崩溃并获得更好的下游性能。