HyperAIHyperAI

Command Palette

Search for a command to run...

Console
3日前

SPARK:参照なし強化学習における段階的プロセス認識報酬

Salman Rahman Sruthi Gorantla Arpit Gupta Swastik Roy Nanyun Peng Yang Liu

SPARK:参照なし強化学習における段階的プロセス認識報酬

要約

段階レベルのフィードバックを密に提供するプロセス報酬モデル(PRM)は強化学習において有望な成果を示しているが、高コストな段階レベルのアノテーションや真値リファレンスの必要性により、その導入は依然として限定的である。本研究では、三段階フレームワーク「SPARK」を提案する。第一段階では、生成モデルが多様な解法を生成し、検証モデルが並列スケーリング(自己一貫性)と逐次スケーリング(メタ評価)を用いてそれらを評価する。第二段階では、これらの検証結果を合成データとして用い、生成プロセス報酬モデル(generative process reward model)をファインチューニングする。その後、このモデルが訓練中に報酬信号として機能する。我々は、段階レベルで複数の独立した検証結果を統合することで、真値出力監督を上回るプロセス報酬モデルの訓練データが得られることを示した。数学的推論における誤ったステップを検出するベンチマーク「ProcessBench」において、67.5のF1スコアを達成したのに対し、リファレンスガイドド学習では66.4、GPT-4oでは61.9にとどまった。第三段階では、チェーン・オブ・シンキングによる検証(PRM-CoT)を用いた生成型PRMを、数学的推論における強化学習実験の報酬モデルとして適用し、報酬ハッキングを防ぐためにフォーマット制約を導入した。Qwen2.5-Math-7Bを用いた実験では、6つの数学的推論ベンチマークにおいて平均47.4%の精度を達成し、真値ベースのRLVR(43.9%)を上回った。本研究により、真値リファレンスを必要としない強化学習訓練が可能となり、検証可能な答えが得られない、あるいは真値にアクセスできない分野における新たな可能性が開かれた。

AI で AI を構築

アイデアからローンチまで — 無料の AI 共同コーディング、すぐに使える環境、最適価格の GPU で AI 開発を加速。

AI 共同コーディング
すぐに使える GPU
最適価格
今すぐ始める

Hyper Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています