Command Palette
Search for a command to run...
Yang Yue Zhiqi Chen Rui Lu Andrew Zhao Zhaokai Wang Shiji Song Yang Yue Gao Huang

要約
検証可能な報酬を用いた強化学習(Reinforcement Learning with Verifiable Rewards; RLVR)は、近年、大規模言語モデル(Large Language Models; LLMs)の推論性能を向上させる上で顕著な成果を上げており、特に数学およびプログラミングタスクにおいてその有効性が示されている。一般的に、従来の強化学習がエージェントが探索を行い新たな戦略を学習するのと同様に、RLVRはLLMsが継続的に自己改善を遂げ、ベースモデルの能力を超える新たな推論能力を獲得できるようにすると考えられている。本研究では、RLVRの現在の状態を批判的に検証するため、さまざまなモデルファミリー、強化学習アルゴリズム、および数学・コード・視覚的推論のベンチマークにおいて、大規模なk値におけるpass@kを評価指標として用いて、RLVRで訓練されたLLMsの推論能力の限界を体系的に調査した。結果として、RLVRは正しい解への探索効率を向上させる一方で、驚くべきことに、現在の訓練プロセスは根本的に新しい推論パターンを引き出しているわけではないことが明らかになった。特に、kが小さい場合(例:k=1)にはRLVRで訓練されたモデルがベースモデルを上回る性能を示すものの、kが大きい場合には逆にベースモデルの方が高いpass@kスコアを達成することが観察された。さらに、RLVRの訓練が進むにつれて、LLMsの推論能力の境界がしばしば狭まる傾向があることも明らかになった。さらに、カバレッジおよび複雑さ(perplexity)分析の結果から、RLVRモデルが生成する推論経路は、すべてベースモデルのサンプリング分布に既に含まれていることが示された。これは、RLVRモデルの推論能力がベースモデルに由来し、かつその能力がベースモデルによって制約されていることを示唆している。このような観点から、ベースモデルを上限とみなすと、定量的な分析により、6つの代表的なRLVRアルゴリズムは類似した性能を示しており、ベースモデルの潜在能力を十分に活用できていないことが明らかになった。一方で、教師モデルから新たな推論パターンを蒸留(distillation)することで、モデルの推論能力を本質的に拡張できることが明らかになった。以上の結果から、現在のRLVR手法は、LLMsに真正に新しい推論能力を引き出すという強化学習の潜在能力を十分に実現できていないことが示唆される。このことから、継続的なスケーリングや複数ターンのエージェント-環境間の相互作用を含む、より洗練された強化学習の枠組みの開発が、この潜在能力を解き放つために不可欠であることが示唆される。