HyperAIHyperAI

Command Palette

Search for a command to run...

VCRL:大規模言語モデル向けの分散に基づくカリキュラム強化学習

Guochao Jiang Wenfeng Feng Guofeng Quan Chuzhan Hao Yuewei Zhang Guohua Liu Hao Wang

概要

現在、ポリシーに基づく強化学習は、大規模言語モデル(LLM)の数学的推論能力を向上させる上で重要な役割を果たしている。しかし、従来のロールアウトベースの強化学習手法(GRPO、DAPO、GSPOなど)は、異なる難易度のサンプルに対するLLMの学習能力を明示的に考慮していない。これは、人間が数学的推論タスクにおいて易しい問題から難しい問題へと段階的に取り組む認知プロセスと矛盾している。直感的に、我々はRLVRにおけるロールアウトグループの報酬の分散が、現在のサンプルに対するLLMの難易度を部分的に反映していることを発見した。極めて易しいまたは極めて難しいサンプルでは分散が小さくなるのに対し、中程度の難易度のサンプルでは分散が大きくなる。この知見に基づき、本研究では、グループ報酬の分散を用いて訓練サンプルの難易度を動的に制御するカリキュラム強化学習フレームワークVCRLを提案する。5つの数学的ベンチマークおよび2つのモデルを用いた実験により、VCRLが現在のLLM強化学習ベースラインに対して優れた性能を発揮することが明らかになった。


AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助
すぐに使える GPU
最適な料金体系

HyperAI Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています
VCRL:大規模言語モデル向けの分散に基づくカリキュラム強化学習 | 記事 | HyperAI超神経