16 天前

让我们逐步验证

Hunter Lightman, Vineet Kosaraju, Yura Burda, Harri Edwards, Bowen Baker, Teddy Lee, Jan Leike, John Schulman, Ilya Sutskever, Karl Cobbe

查看论文详情

摘要

近年来，大型语言模型在执行复杂多步推理任务方面取得了显著进步。然而，即便是最先进的模型，仍频繁出现逻辑错误。为了训练出更加可靠的模型，我们可以采用两种监督方式：结果监督（outcome supervision），即仅对最终结果提供反馈；或过程监督（process supervision），即对每个中间推理步骤均提供反馈。鉴于训练可靠模型的重要性，以及人工反馈成本高昂，因此有必要对这两种方法进行审慎比较。尽管已有研究初步开展了此类对比，但许多关键问题仍未解决。本文开展了独立研究，发现对于训练模型解决具有挑战性的MATH数据集中的问题而言，过程监督显著优于结果监督。我们基于过程监督训练的模型在MATH测试集的一个代表性子集上成功解决了78%的问题。此外，我们还证明了主动学习（active learning）能显著提升过程监督的效率。为支持相关研究，我们还发布了PRM800K数据集——该数据集包含80万条用于训练最优奖励模型的、细粒度的步骤级人工反馈标签，完整公开以供学术界使用。