概要

タイトル：なし抄録：プロセス報酬モデル（PRM）は推論に対してステップレベルのフィードバックを提供するが、現在のPRMは通常、各ステップに対して単一の報酬スコアのみを出力する。そのため、下流の手法は、不完全なステップレベルの報酬予測を信頼性の高い意思決定シグナルとして扱わざるを得ず、これらの予測をいつ信頼すべきかを示す指標がない。我々は、ステップレベルの成功確率とその予測の信頼性の両方を予測する分布型PRMであるBetaPRMを提案する。モンテカルロ継続からのステップ成功教師信号を用いて、BetaPRMは有限標本の成功比率を点目標として回帰するのではなく、ベータ-二項尤度を通じて観測された継続の成功数説明するベータ信念を学習する。この学習された信頼性シグナルは、ステップ報酬をいつ信頼すべきかを示し、下流の応用において信頼できる報酬と不確実な報酬を区別することを可能にする。一つの応用として、PRM誘導のBest-of-N推論のための適応的計算配分（ACA）を提案する。ACAは学習された信頼性シグナルを用い、高報酬の解が信頼できる場合に停止し、不確実な候補接頭辞に対して追加の計算を割り当てる。4つのバックボーンと4つの推論ベンチマークにわたる実験により、BetaPRMが標準的なステップレベルのエラー検出を維持しつつ、PRM誘導のBest-of-N選択を改善することが示された。このシグナルに基づき、ACAは固定予算のBest-of-16と比較して精度トークントレードオフを改善し、最終回答の精度を向上させながらトークン使用量を最大33.57%削減した。

ソースPDF コードを表示