Command Palette

Search for a command to run...

2 个月前

DCPO:动态裁剪策略优化

Shihui Yang Chengfeng Dou Peidong Guo Kai Lu Qiang Ju Fei Deng Rihui Xin

DCPO:动态裁剪策略优化

摘要

基于可验证奖励的强化学习(Reinforcement Learning from Verifiable Rewards, RLVR)已成为提升大语言模型推理能力的一种有前景的框架。然而,现有方法(如GRPO)通常面临梯度为零的问题。这一问题主要源于对分词级别概率比采用固定裁剪边界,以及对相同奖励进行标准化处理,从而导致梯度更新无效,生成响应的利用率不足。在本工作中,我们提出动态裁剪策略优化(Dynamic Clipping Policy Optimization, DCPO),该方法引入了一种动态裁剪机制,能够根据每个词元(token)的先验概率自适应地调整裁剪边界,以增强词元级别的探索能力;同时提出一种平滑优势标准化技术,对累计训练步数中的奖励进行标准化处理,从而提升生成响应在响应级别上的有效利用率。DCPO在基于四种不同模型的四个基准测试中均取得了当前最优性能。具体而言,在AIME24基准测试中,DCPO在贪婪解码下达到Avg@1为46.7,在32次采样下达到Avg@32为38.8,显著优于DAPO(36.7/31.6)和GRPO(36.7/32.1)在Qwen2.5-Math-7B模型上的表现。在基于Qwen2.5-14B模型的AIME25基准测试中,DCPO取得(23.3/19.0)的成绩,超越GRPO(13.3/10.5)和DAPO(20.0/15.3)。此外,DCPO在四种模型上平均提升了28%的非零优势,训练效率相比DAPO提升一倍,且相较于GRPO和DAPO,词元裁剪比例降低了整整一个数量级,同时实现了更优的性能表现。这些结果充分证明了DCPO在更高效地利用生成数据进行大语言模型强化学习方面的显著优势。

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供