18 天前

OVM:面向数学推理规划的结果监督价值模型

Fei Yu, Anningzhe Gao, Benyou Wang
OVM:面向数学推理规划的结果监督价值模型
摘要

大型语言模型(LLMs)在执行多步推理任务时,往往难以保持全程的准确性,尤其是在数学推理领域,早期步骤中的错误可能逐层传播,最终导致错误的结论。为缓解错误传播问题,通常采用引导式解码(guided decoding)策略,对模型的生成过程进行逐步骤引导。我们提出,相较于单纯保证每一步的正确性,评估一条不完整推理路径的潜在价值更具优势,因为前者更有利于导向最终的正确答案。这一思路将问题转化为规划中的价值估计(value estimation)任务。受启发于“引导式解码中的结果监督本质上充当了价值模型”的发现,我们提出了结果监督价值模型(Outcome-supervised Value Model, OVM),该模型通过结果监督来训练一个价值模型,使其优先选择那些能够导向正确结论的推理路径。此外,OVM无需人工标注每一步的正确性,从而显著提升了模型的可扩展性,降低了数据标注成本。我们在两个多步数学推理数据集——GSM8K和Game of 24上的实验表明,OVM模型表现出卓越的性能。特别地,在GSM8K数据集上,我们的OVM-7B模型在参数量不超过13B的大型语言模型中达到了当前最优水平,且未使用GPT-4或代码执行能力作为辅助。这些结果为结果监督在多步推理任务中训练价值模型的作用提供了新的视角,并从理论上验证了其在引导式解码中进行价值估计的优势。

OVM:面向数学推理规划的结果监督价值模型 | 最新论文 | HyperAI超神经