
プロセス報酬モデル(PRMs)は最近、大規模言語モデル(LLMs)の中間推論ステップの監督に強力なフレームワークとして注目を集めています。従来のPRMsは主にモデルの最終出力に対するレスポンスで訓練されており、特にDeepseek-R1などの最先端推論モデルによって生成される軌跡-レスポンスタイプの出力において、中間思考軌跡を堅牢に評価することが困難でした。本研究では、この種の中間推論トレースを評価するために設計された新しい軌跡認識型PRMであるReasonFlux-PRMを導入します。ReasonFlux-PRMはステップレベルと軌跡レベルの両方での監督を組み込んでおり、構造化された思考チェーンデータと整合性のある細かい報酬割り当てが可能となります。我々はReasonFlux-PRMをオフラインおよびオンライン設定下での報酬監督に対応させました。これには(i) 下流タスク向けの高品質なモデル蒸留データの選択、(ii) 強化学習中のポリシー最適化のために密なプロセスレベル報酬の提供、(iii) 報酬ガイドによるBest-of-Nテストタイムスケーリングの実現が含まれます。AIME、MATH500、GPQA-Diamondなどの難易度の高い下流ベンチマークにおける経験的結果は、ReasonFlux-PRM-7Bが強力なPRMs(例:Qwen2.5-Math-PRM-72B)や人間によってキュレーションされた基準よりも高品質なデータを選択することを示しています。さらに、我々が導出したReasonFlux-PRM-7Bは一貫した性能向上を達成しており、教師あり微調整では平均12.1%、強化学習では4.5%、テストタイムスケーリングでは6.3%の改善率を記録しています。また、リソース制約のあるアプリケーションやエッジデプロイメント向けに効率的なReasonFlux-PRM-1.5Bも公開しています。プロジェクト: https://github.com/Gen-Verse/ReasonFlux