Command Palette

Search for a command to run...

2ヶ月前

DCPO:動的クリッピングポリシー最適化

Shihui Yang Chengfeng Dou Peidong Guo Kai Lu Qiang Ju Fei Deng Rihui Xin

DCPO:動的クリッピングポリシー最適化

要約

検証可能な報酬からの強化学習(Reinforcement Learning from Verifiable Rewards: RLVR)は、大規模言語モデルの推論能力を向上させる有望な枠組みとして注目されている。しかし、従来のアプローチであるGRPOなどは、ゼロ勾配(zero gradients)の問題に直面することが多い。この問題の主な原因は、トークンレベルの確率比に対して固定されたクリッピング範囲が設定されており、同一の報酬が標準化されることにある。これにより、勾配更新が効果的に行われず、生成された応答の利用効率が低下する傾向がある。本研究では、動的クリッピング政策最適化(Dynamic Clipping Policy Optimization: DCPO)を提案する。DCPOは、トークンごとの事前確率に基づいてクリッピング範囲を適応的に調整する動的クリッピング戦略を導入し、トークンレベルの探索を強化する。さらに、累積学習ステップにわたって報酬を平滑化して標準化する「スムーズなアドバンテージ標準化技術」を採用することで、生成応答の応答レベルにおける有効な利用を向上させる。DCPOは、4つの異なるモデルを用いた4つのベンチマークにおいて、最先端の性能を達成した。特に、Qwen2.5-Math-7Bモデルを用いたAIME24ベンチマークでは、グリーディデコードにおけるAvg@1が46.7、32回のサンプリングにおけるAvg@32が38.8を達成し、DAPO(36.7/31.6)およびGRPO(36.7/32.1)を上回った。また、Qwen2.5-14Bを用いたAIME25ベンチマークでは、DCPOが(23.3/19.0)の成績を記録し、GRPO(13.3/10.5)およびDAPO(20.0/15.3)を上回った。さらに、DCPOは4つのモデルにおいてGRPO比で非ゼロアドバンテージの平均で28%の改善を達成し、DAPOに対して学習効率を2倍に向上させ、GRPOおよびDAPOと比較してトークンクリッピング比率を1桁低減しながら、優れた性能を実現した。これらの結果は、DCPOが大規模言語モデルにおける強化学習において、生成データをより効率的に活用できる有効な手法であることを示している。

AI で AI を構築

アイデアからローンチまで — 無料の AI 共同コーディング、すぐに使える環境、最適価格の GPU で AI 開発を加速。

AI 共同コーディング
すぐに使える GPU
最適価格
今すぐ始める

Hyper Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています
DCPO:動的クリッピングポリシー最適化 | 論文 | HyperAI超神経