6 个月前

摘要

少样本学习（Few-shot learning）是一项极具挑战性的任务，要求语言模型在仅有少量示例的情况下实现有效泛化。尽管像GPT-3和PaLM这样的大型语言模型在该领域已取得显著进展，但在涉及推理的任务中仍面临困难，例如GSM8K——一个用于评估算术问题解决能力的基准测试。为提升模型的推理能力，先前的研究提出通过设计提示（prompt）来引导语言模型在给出最终答案前逐步输出一系列推理步骤，该方法使GSM8K上的问题解决率从17.9%显著提升至58.1%。本文提出一种新方法——DIVERSE（Diverse Verifier on Reasoning Step），旨在进一步增强语言模型的推理能力。DIVERSE包含三个核心组件：首先，生成多样化的提示，以探索同一问题的不同推理路径；其次，引入一个验证器（verifier），基于加权投票机制筛选并剔除错误答案；第三，对每一步推理过程进行独立验证，而非仅对完整的推理链条整体判断。我们在最新的语言模型code-davinci-002上对DIVERSE进行了评估，结果表明，该方法在八个推理基准测试中的六个上达到了新的最先进水平（例如，在GSM8K上的表现从74.4%提升至83.2%），显著提升了模型在复杂推理任务中的准确性与鲁棒性。

源 PDF