HyperAI超神経
Back to Headlines

ReasonFlux-PRM: 中間推論と最終結果を評価する軌道認識報酬モデル

2日前

大規模言語モデルの論理的思考プロセス評価を強化する新PRM「ReasonFlux-PRM」 大規模言語モデル(LLM)は、数学や科学的な推論などの複雑な課題を解決するために、構造化されたチェーン・オブ・サーゾン(論理的思考プロセス)アプローチを使用する傾向が高まっています。これらのモデルは単に答えを出そうとするのではなく、中間ステップを通じて論理的な思考過程を模倣することで、より正確な推論とエラー追跡の明瞭性を実現しています。 しかし、現在のほとんどの報酬モデル(PRM)は最終的な回答のみを評価し、それにつながる思考過程を無視しているという問題があります。最近の先端モデルであるDeepseek-R1のように、広範な思考過程を生成し、最終的な回答を提供するものが増えてきています。これらの思考過程と回答の組み合わせデータ(トラジェクトリ・レスポンスペア)は、小さな模型の訓練に再利用されているにもかかわらず、現行のPRMはこれら全体のトラジェクトリを評価することに適していません。この不一致により、信頼できない監督が行われて小規模モデルのパフォーマンスが低下することがあります。 さらに、従来のPRMは主に構造化され、整然とした出力を対象としており、先端的なLLMによって生成される長くて時に整理されていない思考過程に対応できていません。たとえば、Qwen2.5-Math-PRM-72Bは、高品質と低品質の中間推論を区別する能力に乏しく、GeminiやDeepseek-R1から出力された思考過程には同一または重複した報酬スコアを割り当てることが多いです。これは、下流の細調に使用されるデータ選択の精度が低位となる原因となり、実験ではPRM選択データで訓練されたモデルのパフォーマンスが人間がキュレーションしたデータで訓練されたモデルよりも低くなることが確認されています。 新PRM「ReasonFlux-PRM」の導入 これを受けて、イリノイ大学アーバナシャンペーン校(UIUC)、プリンストン大学、コーネル大学、ByteDance Seedから研究者が「ReasonFlux-PRM」を紹介しました。このモデルは、中間思考ステップと最終的な答えの両方を評価するトラジェクトリ向けの報酬モデルであり、ステップレベルとトラジェクトリレベルのスコアリングを統合することで、推論品質のより洗練された理解を可能にしております。ReasonFlux-PRMは、数学や科学の問題に特化した10,000サンプルの訓練データセットで訓練されます。このデータセットは、現実世界の思考過程と回答の形式を反映するために慎重にキュレーションされています。 ReasonFlux-PRMの技術的枠組み 具体的には、ReasonFlux-PRMは各中間ステップの最終回答への貢献度に基づいてスコアリングを行います。参考報酬関数はプロンプト、前の思考ステップ、および最終出力を取り入れ、ステップレベルのスコアを割り当てます。これらのスコアは集約され、総合的なトラジェクトリ報酬が生成されます。本機能により、高品質な訓練データのオフラインフィルタリング、強化学習時のGRPOベースの方策最適化による密な報酬提供、テスト時間におけるBest-of-N応答選択による推論品質の向上など、多様な用途が可能となります。 推論ベンチマークでの実証結果 ReasonFlux-PRM-7Bは、AIME、MATH500、GPQA-Diamondなどのベンチマークタスクで、Qwen2.5-Math-PRM-72Bや人間がキュレーションしたデータを超える性能を発揮しました。具体的には、監督学習でのファインチューニングでは accuracy が12.1%向上し、強化学習中は4.5%、テスト時間スケーリングでは6.3%向上しました。特に、ReasonFlux-PRMはモデルサイズが小さくても大きな改善を示しており、Table 1によれば、Qwen2.5-14B-InstructモデルがReasonFlux-PRM選択データで訓練されると、人間がキュレーションしたベースラインに匹敵または上回る性能を達成しました。これが他のPRMでは最大26.6%の低下を招いていることを考慮すると、成果は甚大です。 ReasonFlux-PRMの影響と今後の方向性 この研究は、現代の推論モデルの訓練と評価における重要な制限点に対処しています。思考過程と最終答えの両方に対する監督によって、訓練データの品質とモデル応答の信頼性が向上します。これにより、大規模モデルにおける論理的思考プロセスのシステム的な評価と改善が可能となり、新たな方向性が示されました。 業界関係者は、ReasonFlux-PRMが将来的にLLMの教育品質向上に大きく寄与すると期待しています。参加した研究者たちには多くの功績があり、今後はこのモデルが幅広いアプリケーションで活用されることを期待しています。プロジェクトの詳細については、論文やGitHubページを参照してください。

Related Links