Command Palette
Search for a command to run...
Yujun Zhou Zhenwen Liang Haolin Liu Wenhao Yu Kishan Panaganti Linfeng Song Dian Yu Xiangliang Zhang Haitao Mi Dong Yu

摘要
大型语言模型(LLMs)正越来越多地采用可验证奖励的强化学习(RLVR)进行训练,然而在现实世界中的部署需求则要求模型能够在无标签数据或外部评判者的情况下实现自我改进。现有的无标签方法,如置信度最小化、自一致性或多数投票目标函数,虽能稳定学习过程,但会逐步压缩探索空间,导致熵崩溃:生成结果变得越来越短、多样性下降,且鲁棒性变差。与以往方法(如测试时强化学习,TTRL)主要针对当前未标注数据集进行模型适应不同,我们的目标更为广泛:在不牺牲模型固有的探索能力与泛化能力的前提下,实现模型的持续优化,即“演化”。为此,我们形式化了该问题,并提出了面向演化的无标签强化学习方法(EVolution-Oriented and Label-free Reinforcement Learning, EVOL-RL)。该方法在无标签设定下,通过一个简单规则将稳定性与多样性相结合。EVOL-RL以多数投票结果作为稳定的锚点(选择机制),同时引入一种新颖性感知奖励,鼓励生成在语义空间中与已有输出存在差异的推理路径(即多样性),从而实现探索的持续拓展。在实现上,EVOL-RL结合GRPO算法,采用非对称裁剪机制以保留强信号,并引入熵正则项以维持搜索活力。这种“多数投票用于选择 + 新颖性用于多样性”的设计有效防止了熵崩溃,保持了更长且更具信息量的思维链,显著提升了pass@1与pass@n的性能。实验表明,EVOL-RL在多个任务上持续优于仅使用多数投票的TTRL基线方法:例如,在无标签AIME24数据集上训练时,Qwen3-4B-Base模型在AIME25任务上的pass@1得分从TTRL的4.6%提升至16.4%,pass@16得分从18.5%提升至37.9%。EVOL-RL不仅有效缓解了多样性崩溃问题,还显著增强了模型在跨领域任务中的泛化能力(如GPQA)。此外,我们还证明,EVOL-RL在传统的RLVR设置下同样能提升性能,凸显了其广泛适用性。