Command Palette
Search for a command to run...
見えないリード:なぜRLVRはその起源から逃れられないのか
見えないリード:なぜRLVRはその起源から逃れられないのか
Fang Wu Weihao Xuan Ximing Lu Zaid Harchaoui Yejin Choi
概要
近年の大規模推論モデルにおける進展は、AIの能力向上において検証可能な報酬を用いた強化学習(Reinforcement Learning with Verifiable Rewards:RLVR)が有望な手法であることを示している。特に、複雑な論理的タスクの解決においてその効果が注目されている。しかし、RLVRがモデルの推論範囲を本当に広げているのか、それともベースモデルが既知の高報酬出力を強化することで精度を向上させているだけなのかは依然として不明である。本研究では、RLVRの潜在的な限界について理論的および実験的な考察を行い、新たな知見を提供する。まず、RLVRがベースモデルのサポート領域に制約されており、初期確率がゼロの解をサンプルすることはできないという新たな理論的視点を提示する。また、RLVRは保守的な再重み付けメカニズムとして機能し、完全に新しい解の発見を制限する可能性がある。さらに、エントロピーと報酬のトレードオフを明らかにした。RLVRは精度を確実に向上させるが、探索範囲が徐々に狭まり、正確だが過小評価されている解を見逃す可能性がある。膨大な実験結果により、RLVRがpass@1を一貫して改善する一方で、サンプリング予算が大きい場合においては、実験的なサポートの縮小が拡大を上回り、ベースモデルが以前にアクセス可能だった正しい答えを回復できなくなることが確認された。興味深いことに、RLVRは時折トークンレベルのエントロピーを増加させ、生成ステップごとの不確実性を高めるが、答えレベルのエントロピーは低下し、このようにして不確実な経路が最終的に少数の異なる答えに収束することが示された。これらの結果は、RLVRが推論の範囲を拡大する上で潜在的な限界を示している。この「目に見えないリード」を断ち切るには、今後のアルゴリズムの革新、例えば明示的な探索メカニズムや、過小評価されている解領域に確率質量を種まくハイブリッド戦略の導入が求められる。