
要約
強化学習による検証可能な報酬(Reinforcement Learning with Verifiable Rewards: RLVR)は、大規模言語モデル(LLMs)の推論能力向上に有望な可能性を示しています。しかし、その成功は主に数学やコードの領域に限定されています。この主要な制限は、ドメイン固有の検証者への過度な依存から生じており、これにより複雑さが増大し、拡張性が制限されます。この課題に対処するために、我々の重要な観察点は、LLMが正解の自由形式回答を生成する内在的な確率が直接的に推論報酬(つまり、推論過程が正解につながる度合い)の自己評価を示していることです。この洞察に基づいて、我々はRLPRという単純な検証者なしフレームワークを提案します。RLPRは、LLM自身のトークン確率スコアを報酬信号として使用し、学習中に期待報酬を最大化します。高分散を持つノイジーな確率報酬の問題に対処することが重要であることがわかりました。そこで、確率から報酬への変換方法と安定化手法を提案し、LLMの内在的な確率から正確かつ安定した報酬を得ることを確保します。4つの一般ドメインベンチマークと3つの数学ベンチマークにおける包括的な実験結果から、Gemma, Llama, QwenベースのモデルにおいてRLPRが両分野で一貫して推論能力を向上させていることが確認されました。特に、TheoremQAでは同期的なVeriFreeに対して7.6ポイント上回り、Minervaでは7.5ポイント上回りました。さらに、7つのベンチマーク全体で平均1.6ポイント上回るなど、強力な検証者依存型アプローチであるGeneral-Reasonerも凌駕しています。