Command Palette

Search for a command to run...

1 个月前

ExGRPO:从经验中学习推理

Runzhe Zhan Yafu Li Zhi Wang Xiaoye Qu Dongrui Liu Jing Shao Derek F. Wong Yu Cheng

ExGRPO:从经验中学习推理

摘要

基于可验证奖励的强化学习(Reinforcement Learning from Verifiable Rewards, RLVR)是一种新兴范式,旨在提升大语言模型的推理能力。然而,标准的在线策略训练在完成一次更新后即丢弃轨迹经验,导致计算效率低下且训练过程不稳定。尽管以往强化学习研究已强调复用历史经验的优势,但经验特性如何影响大型推理模型的学习动态,这一问题仍鲜有探讨。本文首次系统研究了何种因素使推理经验具有价值,并识别出轨迹正确性与熵值是衡量经验价值的有效指标。基于这些发现,我们提出ExGRPO(Experiential Group Relative Policy Optimization)框架,该框架对有价值的经验进行组织与优先级排序,并采用混合策略目标,在探索与经验利用之间实现平衡。在五个骨干模型(参数规模1.5B至8B)上的实验表明,ExGRPO在数学与通用推理基准测试中均能持续提升模型性能,相较于在线策略RLVR,平均提升幅度达+3.5分(数学)和+7.6分(通用)。此外,ExGRPO在更强和更弱的模型上均实现了训练稳定,而传统在线策略方法在此类情况下往往失效。这些结果表明,有原则的经验管理是实现高效、可扩展RLVR的关键要素。

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供