HyperAIHyperAI

Command Palette

Search for a command to run...

通过步骤感知验证器提升大语言模型的推理能力

Yifei Li Zeqi Lin Shizhuo Zhang Qiang Fu Bei Chen Jian-Guang Lou Weizhu Chen

摘要

少样本学习(Few-shot learning)是一项极具挑战性的任务,要求语言模型在仅有少量示例的情况下实现有效泛化。尽管像GPT-3和PaLM这样的大型语言模型在该领域已取得显著进展,但在涉及推理的任务中仍面临困难,例如GSM8K——一个用于评估算术问题解决能力的基准测试。为提升模型的推理能力,先前的研究提出通过设计提示(prompt)来引导语言模型在给出最终答案前逐步输出一系列推理步骤,该方法使GSM8K上的问题解决率从17.9%显著提升至58.1%。本文提出一种新方法——DIVERSE(Diverse Verifier on Reasoning Step),旨在进一步增强语言模型的推理能力。DIVERSE包含三个核心组件:首先,生成多样化的提示,以探索同一问题的不同推理路径;其次,引入一个验证器(verifier),基于加权投票机制筛选并剔除错误答案;第三,对每一步推理过程进行独立验证,而非仅对完整的推理链条整体判断。我们在最新的语言模型code-davinci-002上对DIVERSE进行了评估,结果表明,该方法在八个推理基准测试中的六个上达到了新的最先进水平(例如,在GSM8K上的表现从74.4%提升至83.2%),显著提升了模型在复杂推理任务中的准确性与鲁棒性。


用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码
开箱即用的 GPU
最优定价

HyperAI Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供