摘要

过程奖励模型（Process Reward Models, PRMs）为推理过程提供步骤级反馈，但当前的PRM通常仅对每个步骤输出单一奖励分数。因此，下游方法必须将不完美的步骤级奖励预测视为可靠的决策信号，且无法获知在何时应信任这些预测。我们提出了BetaPRM，这是一种分布式的PRM，能够同时预测步骤级成功概率以及该预测的可靠性。基于蒙特卡洛延续（Monte Carlo continuations）提供的步骤成功监督信号，BetaPRM学习一个Beta信念分布，通过Beta-Binomial似然函数来解释观察到的成功延续次数，而不是将有限样本的成功率作为点目标进行回归。这种学习到的可靠性信号指示了在何时应信任步骤奖励，使下游应用能够区分可靠奖励与不确定奖励。作为其中一个应用，我们引入了用于PRM引导的Best-of-N推理的自适应计算分配（Adaptive Computation Allocation, ACA）。ACA利用学习到的可靠性信号，在找到高奖励且可靠的解时停止计算，并在不确定的候选前缀上投入额外计算。在四个骨干模型和四个推理基准上的实验表明，BetaPRM在保持标准步骤级错误检测能力的同时，提升了PRM引导的Best-of-N选择效果。基于该可靠性信号，ACA在固定预算Best-of-16的基础上优化了准确率与token数量之间的权衡，在提升最终答案准确率的同时，将token使用量减少了高达33.57%。

源 PDF 查看代码