1ヶ月前

VCRL：大規模言語モデル向けの分散に基づくカリキュラム強化学習

Guochao Jiang Wenfeng Feng Guofeng Quan Chuzhan Hao Yuewei Zhang Guohua Liu Hao Wang

要約

現在、ポリシーに基づく強化学習は、大規模言語モデル（LLM）の数学的推論能力を向上させる上で重要な役割を果たしている。しかし、従来のロールアウトベースの強化学習手法（GRPO、DAPO、GSPOなど）は、異なる難易度のサンプルに対するLLMの学習能力を明示的に考慮していない。これは、人間が数学的推論タスクにおいて易しい問題から難しい問題へと段階的に取り組む認知プロセスと矛盾している。直感的に、我々はRLVRにおけるロールアウトグループの報酬の分散が、現在のサンプルに対するLLMの難易度を部分的に反映していることを発見した。極めて易しいまたは極めて難しいサンプルでは分散が小さくなるのに対し、中程度の難易度のサンプルでは分散が大きくなる。この知見に基づき、本研究では、グループ報酬の分散を用いて訓練サンプルの難易度を動的に制御するカリキュラム強化学習フレームワークVCRLを提案する。5つの数学的ベンチマークおよび2つのモデルを用いた実験により、VCRLが現在のLLM強化学習ベースラインに対して優れた性能を発揮することが明らかになった。

AI で AI を構築

アイデアからローンチまで — 無料の AI 共同コーディング、すぐに使える環境、最適価格の GPU で AI 開発を加速。

AI 共同コーディング

すぐに使える GPU

最適価格

今すぐ始める

Hyper Newsletters

最新情報を購読する

北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします

メール配信サービスは MailChimp によって提供されています

Command Palette

VCRL：大規模言語モデル向けの分散に基づくカリキュラム強化学習

Guochao Jiang Wenfeng Feng Guofeng Quan Chuzhan Hao Yuewei Zhang Guohua Liu Hao Wang

要約

AI で AI を構築

Hyper Newsletters