1ヶ月前

ExGRPO：経験から推論するための学習

Runzhe Zhan Yafu Li Zhi Wang Xiaoye Qu Dongrui Liu Jing Shao Derek F. Wong Yu Cheng

要約

検証可能な報酬からの強化学習（RLVR）は、大規模言語モデルの推論能力を向上させるための新しいパラダイムとして注目されている。しかし、従来のオンポリシー学習では、一度の更新後にロールアウト経験を放棄してしまうため、計算上の非効率性と学習の不安定性が生じる。これまでの強化学習研究では、過去の経験を再利用する利点が指摘されてきたが、経験の特性が大規模推論モデルの学習ダイナミクスにどのように影響するかについては、まだ十分に解明されていない。本論文では、初めて推論経験の価値を決定する要因を解明し、ロールアウトの正しさ（correctness）とエントロピーを、経験の価値を効果的に示す指標として特定した。これらの知見をもとに、価値ある経験を組織化・優先順位付けし、探索と経験の活用のバランスを取るための混合ポリシー目的関数を採用する「ExGRPO（Experiential Group Relative Policy Optimization）」というフレームワークを提案する。1.5B～8Bパラメータの5種類のベースモデルを用いた実験により、ExGRPOは数学的・一般的ベンチマークにおいて、オンポリシーRLVRと比較して平均+3.5点／+7.6点の性能向上を一貫して達成した。さらに、オンポリシー手法が失敗する強力なモデルおよび弱いモデルにおいても、ExGRPOは学習の安定性を確保した。これらの結果は、効率的かつスケーラブルなRLVRの実現に向け、原理的な経験管理が鍵となる要素であることを示している。

AI で AI を構築

アイデアからローンチまで — 無料の AI 共同コーディング、すぐに使える環境、最適価格の GPU で AI 開発を加速。

AI 共同コーディング

すぐに使える GPU

最適価格

今すぐ始める

Hyper Newsletters

最新情報を購読する

北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします

メール配信サービスは MailChimp によって提供されています

Command Palette

ExGRPO：経験から推論するための学習

Runzhe Zhan Yafu Li Zhi Wang Xiaoye Qu Dongrui Liu Jing Shao Derek F. Wong Yu Cheng

要約

AI で AI を構築

Hyper Newsletters