Command Palette
Search for a command to run...
Guochao Jiang Wenfeng Feng Guofeng Quan Chuzhan Hao Yuewei Zhang Guohua Liu Hao Wang

摘要
基于策略的强化学习在提升大语言模型(LLM)在数学推理任务上的表现方面目前发挥着重要作用。然而,现有的基于rollout的强化学习方法(如GRPO、DAPO、GSPO等)未能显式考虑大语言模型对不同难度样本的学习能力,这与人类在解决数学推理问题时从简单到复杂的认知过程相悖。直观上,我们发现强化学习中的奖励方差(RLVR)在一定程度上反映了当前样本对大语言模型而言的难度。过于简单或过于复杂的样本其奖励方差较低,而中等难度的样本则表现出更高的方差。基于这一观察,我们提出VCRL——一种课程式强化学习框架,该框架通过动态分析奖励组的方差来调节训练样本的难度。在五个数学推理基准测试和两种模型上的实验结果表明,VCRL相较于当前主流的大语言模型强化学习基线方法具有显著优势。