Command Palette

Search for a command to run...

1 个月前

基于方差的课程强化学习用于大语言模型

Guochao Jiang Wenfeng Feng Guofeng Quan Chuzhan Hao Yuewei Zhang Guohua Liu Hao Wang

基于方差的课程强化学习用于大语言模型

摘要

基于策略的强化学习在提升大语言模型(LLM)在数学推理任务上的表现方面目前发挥着重要作用。然而,现有的基于rollout的强化学习方法(如GRPO、DAPO、GSPO等)未能显式考虑大语言模型对不同难度样本的学习能力,这与人类在解决数学推理问题时从简单到复杂的认知过程相悖。直观上,我们发现强化学习中的奖励方差(RLVR)在一定程度上反映了当前样本对大语言模型而言的难度。过于简单或过于复杂的样本其奖励方差较低,而中等难度的样本则表现出更高的方差。基于这一观察,我们提出VCRL——一种课程式强化学习框架,该框架通过动态分析奖励组的方差来调节训练样本的难度。在五个数学推理基准测试和两种模型上的实验结果表明,VCRL相较于当前主流的大语言模型强化学习基线方法具有显著优势。

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供