17 天前

通过步骤感知验证器提升大语言模型的推理能力

Yifei Li, Zeqi Lin, Shizhuo Zhang, Qiang Fu, Bei Chen, Jian-Guang Lou, Weizhu Chen
通过步骤感知验证器提升大语言模型的推理能力
摘要

少样本学习(Few-shot learning)是一项极具挑战性的任务,要求语言模型在仅有少量示例的情况下实现有效泛化。尽管像GPT-3和PaLM这样的大型语言模型在该领域已取得显著进展,但在涉及推理的任务中仍面临困难,例如GSM8K——一个用于评估算术问题解决能力的基准测试。为提升模型的推理能力,先前的研究提出通过设计提示(prompt)来引导语言模型在给出最终答案前逐步输出一系列推理步骤,该方法使GSM8K上的问题解决率从17.9%显著提升至58.1%。本文提出一种新方法——DIVERSE(Diverse Verifier on Reasoning Step),旨在进一步增强语言模型的推理能力。DIVERSE包含三个核心组件:首先,生成多样化的提示,以探索同一问题的不同推理路径;其次,引入一个验证器(verifier),基于加权投票机制筛选并剔除错误答案;第三,对每一步推理过程进行独立验证,而非仅对完整的推理链条整体判断。我们在最新的语言模型code-davinci-002上对DIVERSE进行了评估,结果表明,该方法在八个推理基准测试中的六个上达到了新的最先进水平(例如,在GSM8K上的表现从74.4%提升至83.2%),显著提升了模型在复杂推理任务中的准确性与鲁棒性。

通过步骤感知验证器提升大语言模型的推理能力 | 最新论文 | HyperAI超神经