Salman Rahman Sruthi Gorantla Arpit Gupta Swastik Roy Nanyun Peng Yang Liu

要約
段階レベルのフィードバックを密に提供するプロセス報酬モデル(PRM)は強化学習において有望な成果を示しているが、高コストな段階レベルのアノテーションや真値リファレンスの必要性により、その導入は依然として限定的である。本研究では、三段階フレームワーク「SPARK」を提案する。第一段階では、生成モデルが多様な解法を生成し、検証モデルが並列スケーリング(自己一貫性)と逐次スケーリング(メタ評価)を用いてそれらを評価する。第二段階では、これらの検証結果を合成データとして用い、生成プロセス報酬モデル(generative process reward model)をファインチューニングする。その後、このモデルが訓練中に報酬信号として機能する。我々は、段階レベルで複数の独立した検証結果を統合することで、真値出力監督を上回るプロセス報酬モデルの訓練データが得られることを示した。数学的推論における誤ったステップを検出するベンチマーク「ProcessBench」において、67.5のF1スコアを達成したのに対し、リファレンスガイドド学習では66.4、GPT-4oでは61.9にとどまった。第三段階では、チェーン・オブ・シンキングによる検証(PRM-CoT)を用いた生成型PRMを、数学的推論における強化学習実験の報酬モデルとして適用し、報酬ハッキングを防ぐためにフォーマット制約を導入した。Qwen2.5-Math-7Bを用いた実験では、6つの数学的推論ベンチマークにおいて平均47.4%の精度を達成し、真値ベースのRLVR(43.9%)を上回った。本研究により、真値リファレンスを必要としない強化学習訓練が可能となり、検証可能な答えが得られない、あるいは真値にアクセスできない分野における新たな可能性が開かれた。