Command Palette
Search for a command to run...
使用学习到的可靠性进行过程奖励
使用学习到的可靠性进行过程奖励
Jinyuan Li Langlin Huang Chengsong Huang Shaoyang Xu Donghong Cai Yuyi Yang Wenxuan Zhang Jiaxin Huang
摘要
过程奖励模型(Process Reward Models, PRMs)为推理过程提供步骤级反馈,但当前的PRM通常仅对每个步骤输出单一奖励分数。因此,下游方法必须将不完美的步骤级奖励预测视为可靠的决策信号,且无法获知在何时应信任这些预测。我们提出了BetaPRM,这是一种分布式的PRM,能够同时预测步骤级成功概率以及该预测的可靠性。基于蒙特卡洛延续(Monte Carlo continuations)提供的步骤成功监督信号,BetaPRM学习一个Beta信念分布,通过Beta-Binomial似然函数来解释观察到的成功延续次数,而不是将有限样本的成功率作为点目标进行回归。这种学习到的可靠性信号指示了在何时应信任步骤奖励,使下游应用能够区分可靠奖励与不确定奖励。作为其中一个应用,我们引入了用于PRM引导的Best-of-N推理的自适应计算分配(Adaptive Computation Allocation, ACA)。ACA利用学习到的可靠性信号,在找到高奖励且可靠的解时停止计算,并在不确定的候选前缀上投入额外计算。在四个骨干模型和四个推理基准上的实验表明,BetaPRM在保持标准步骤级错误检测能力的同时,提升了PRM引导的Best-of-N选择效果。基于该可靠性信号,ACA在固定预算Best-of-16的基础上优化了准确率与token数量之间的权衡,在提升最终答案准确率的同时,将token使用量减少了高达33.57%。