16 天前

让我们逐步验证

Hunter Lightman, Vineet Kosaraju, Yura Burda, Harri Edwards, Bowen Baker, Teddy Lee, Jan Leike, John Schulman, Ilya Sutskever, Karl Cobbe
让我们逐步验证
摘要

近年来,大型语言模型在执行复杂多步推理任务方面取得了显著进步。然而,即便是最先进的模型,仍频繁出现逻辑错误。为了训练出更加可靠的模型,我们可以采用两种监督方式:结果监督(outcome supervision),即仅对最终结果提供反馈;或过程监督(process supervision),即对每个中间推理步骤均提供反馈。鉴于训练可靠模型的重要性,以及人工反馈成本高昂,因此有必要对这两种方法进行审慎比较。尽管已有研究初步开展了此类对比,但许多关键问题仍未解决。本文开展了独立研究,发现对于训练模型解决具有挑战性的MATH数据集中的问题而言,过程监督显著优于结果监督。我们基于过程监督训练的模型在MATH测试集的一个代表性子集上成功解决了78%的问题。此外,我们还证明了主动学习(active learning)能显著提升过程监督的效率。为支持相关研究,我们还发布了PRM800K数据集——该数据集包含80万条用于训练最优奖励模型的、细粒度的步骤级人工反馈标签,完整公开以供学术界使用。

让我们逐步验证 | 最新论文 | HyperAI超神经