超越80/20法则:高熵少数令牌驱动LLM推理的有效强化学习
Shenzhi Wang, Le Yu, Chang Gao, Chujie Zheng, Shixuan Liu, Rui Lu, Kai Dang, Xionghui Chen, Jianxin Yang, Zhenru Zhang, Yuqiong Liu, An Yang, Andrew Zhao, Yang Yue, Shiji Song, Bowen Yu, Gao Huang, Junyang Lin
发布日期: 6/3/2025

摘要
强化学习与可验证奖励(RLVR)作为一种增强大型语言模型(LLM)推理能力的强大方法,其机制尚未完全明了。在本研究中,我们首次从令牌熵模式的新视角对RLVR进行了探索,全面分析了不同令牌如何影响推理性能。通过考察链式思维(CoT)推理中的令牌熵模式,我们观察到只有少量令牌表现出高熵特性,这些令牌作为关键的分叉点,引导模型走向多样化的推理路径。此外,研究RLVR训练过程中熵模式的变化揭示了RLVR主要遵循基础模型的熵模式,主要调整高熵令牌的熵值。这些发现突显了高熵令牌(即分叉令牌)对RLVR的重要性。最终,我们通过限制策略梯度更新仅应用于分叉令牌来改进RLVR,并发现了一个超越80/20规则的现象:仅利用20%的令牌即可在Qwen3-8B基础模型上实现与全梯度更新相当的性能,并在Qwen3-32B基础模型上显著超过全梯度更新(AIME'25提高11.04分,AIME'24提高7.71分),以及在Qwen3-14B基础模型上也显著优于全梯度更新(AIME'25提高4.79分,AIME'24提高5.21分),显示出强烈的扩展趋势。相反,仅对80%低熵令牌进行训练会导致性能明显下降。这些结果表明,RLVR的有效性主要源于优化那些决定推理方向的高熵令牌。总体而言,我们的研究结果强调了通过令牌熵视角理解RLVR的潜力,并通过利用高熵少数令牌进一步优化RLVR以提升LLM推理能力的可能性。