1 个月前

基于方差的课程强化学习用于大语言模型

Guochao Jiang Wenfeng Feng Guofeng Quan Chuzhan Hao Yuewei Zhang Guohua Liu Hao Wang

摘要

基于策略的强化学习在提升大语言模型（LLM）在数学推理任务上的表现方面目前发挥着重要作用。然而，现有的基于rollout的强化学习方法（如GRPO、DAPO、GSPO等）未能显式考虑大语言模型对不同难度样本的学习能力，这与人类在解决数学推理问题时从简单到复杂的认知过程相悖。直观上，我们发现强化学习中的奖励方差（RLVR）在一定程度上反映了当前样本对大语言模型而言的难度。过于简单或过于复杂的样本其奖励方差较低，而中等难度的样本则表现出更高的方差。基于这一观察，我们提出VCRL——一种课程式强化学习框架，该框架通过动态分析奖励组的方差来调节训练样本的难度。在五个数学推理基准测试和两种模型上的实验结果表明，VCRL相较于当前主流的大语言模型强化学习基线方法具有显著优势。

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程

即用型 GPU

最优价格

立即开始

Hyper Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

Command Palette

基于方差的课程强化学习用于大语言模型

Guochao Jiang Wenfeng Feng Guofeng Quan Chuzhan Hao Yuewei Zhang Guohua Liu Hao Wang

摘要

用 AI 构建 AI

Hyper Newsletters