Command Palette
Search for a command to run...
Haoran He Yuxiao Ye Qingpeng Cai Chen Hu Binxing Jiao Daxin Jiang Ling Pan

要約
検証可能な報酬を伴う強化学習(RLVR)は、大規模言語モデル(LLM)の推論能力を向上させる有望な枠組みとして注目されている。現在の手法は主にPPOやGRPOなどの方策最適化フレームワークに依拠しており、これらは現在の方策の価値を評価し、その評価に基づいて方策を改善するという一般化方策反復(generalized policy iteration)を繰り返す。これらは有効ではあるが、訓練の不安定性や多様性の崩壊(diversity collapse)といった問題を抱えやすく、複雑なヒューリスティックな工夫や慎重なチューニングが必須となる。本研究では、数学推論における標準的なRLVRが、決定論的状態遷移、木構造をもつダイナミクス、および二値の終端報酬を持つ特殊化された有限履歴マルコフ意思決定過程(MDP)として定式化できることに着目した。規模は大きいものの、一般的な制御設定に比べて構造は単純であり、現在広く使われている強化学習アルゴリズム(例:PPO)が設計された背景よりも簡潔である。この洞察に基づき、我々は驚くべき結果を証明した:固定された一様ランダム方策のQ関数から最適行動を復元可能である。これにより、一般化方策反復ループおよびそれに伴うヒューリスティックを回避できる。この原理を実用的かつスケーラブルなアルゴリズムに変換するため、我々は「多様な推論のためのランダム方策評価法(ROVER: Random Policy Valuation for Diverse Reasoning)」を提案する。ROVERは、一様ランダム方策のQ値をもとにソフトマックスで行動をサンプリングするという極めてシンプルながら高効果な強化学習手法であり、訓練全体にわたり多様性を維持し、複数の有効な推論経路を継続的に探索可能である。複数のベースモデルおよび標準的な数学推論ベンチマークにおいて、従来の複雑で強力な手法と比較しても、ROVERは品質(pass@1で+8.2、pass@256で+16.8)および多様性(+17.6%)の両面で優れた性能を示した。これは、極めて単純化された枠組みにもかかわらず、強力な既存手法を上回る成果を達成したことを示している。