13日前
RL-PLUS:ハイブリッド方策最適化を用いた強化学習におけるLLMの能力境界崩壊の是正
Yihong Dong, Xue Jiang, Yongding Tao, Huanyu Liu, Kechi Zhang, Lili Mou, et al

要約
検証可能な報酬を用いた強化学習(RLVR)は、大規模言語モデル(LLM)の複雑な推論能力を著しく進化させた。しかし、LLMが持つ膨大な行動空間と疎な報酬構造という特性から、RLVRは本質的にオンポリシー戦略を採用しており、基礎モデルの固有の能力限界を突破することができない。さらに、RLVRは能力限界の崩壊を引き起こす可能性があり、LLMの問題解決範囲を狭める要因となる。この問題に対処するため、本研究では、内部的な探索(=思考)と外部データ(=学習)を統合する新たなアプローチ、RL-PLUSを提案する。RL-PLUSは、基礎モデルの能力限界を越え、より強力な推論能力を実現することを目的としている。本手法は、2つの核心的な要素を統合している。1つ目は、外部データに起因する分布不一致に対処するための「多重重要度サンプリング(Multiple Importance Sampling)」であり、2つ目は、高価値かつ未探索の推論経路へモデルを導くための「探索に基づくアドバンテージ関数(Exploration-Based Advantage Function)」である。理論的分析と広範な実験を通じて、本手法の優位性および汎用性を示した。実験結果によると、RL-PLUSは6つの数学推論ベンチマークにおいて、既存のRLVR手法と比較して最先端の性能を達成し、6つの分布外推論タスクにおいても優れた性能を示した。また、さまざまなモデルファミリーにおいて一貫して顕著な改善を達成しており、平均相対改善率は21.1%から69.2%の範囲に達した。さらに、複数のベンチマークにおけるPass@k曲線から、RL-PLUSが能力限界の崩壊問題を効果的に解決していることが明らかになった。