Command Palette
Search for a command to run...
Guochao Jiang Wenfeng Feng Guofeng Quan Chuzhan Hao Yuewei Zhang Guohua Liu Hao Wang

要約
現在、ポリシーに基づく強化学習は、大規模言語モデル(LLM)の数学的推論能力を向上させる上で重要な役割を果たしている。しかし、従来のロールアウトベースの強化学習手法(GRPO、DAPO、GSPOなど)は、異なる難易度のサンプルに対するLLMの学習能力を明示的に考慮していない。これは、人間が数学的推論タスクにおいて易しい問題から難しい問題へと段階的に取り組む認知プロセスと矛盾している。直感的に、我々はRLVRにおけるロールアウトグループの報酬の分散が、現在のサンプルに対するLLMの難易度を部分的に反映していることを発見した。極めて易しいまたは極めて難しいサンプルでは分散が小さくなるのに対し、中程度の難易度のサンプルでは分散が大きくなる。この知見に基づき、本研究では、グループ報酬の分散を用いて訓練サンプルの難易度を動的に制御するカリキュラム強化学習フレームワークVCRLを提案する。5つの数学的ベンチマークおよび2つのモデルを用いた実験により、VCRLが現在のLLM強化学習ベースラインに対して優れた性能を発揮することが明らかになった。