15 天前

思维链提示在大型语言模型中激发推理能力

Jason Wei, Xuezhi Wang, Dale Schuurmans, Maarten Bosma, Brian Ichter, Fei Xia, Ed Chi, Quoc Le, Denny Zhou
思维链提示在大型语言模型中激发推理能力
摘要

我们探讨了通过生成思维链——即一系列中间推理步骤——如何显著提升大型语言模型执行复杂推理的能力。特别地,我们展示了在足够大的语言模型中,仅通过一种称为“思维链提示”(chain of thought prompting)的简单方法,便可自然地涌现出此类推理能力:即在提示中提供少量思维链示范作为示例。在三个大型语言模型上的实验表明,思维链提示显著提升了模型在算术推理、常识推理和符号推理等多种任务上的表现。其实际性能提升尤为显著:例如,仅使用八个思维链示例对一个参数规模达5400亿的语言模型进行提示,即可在数学应用题基准测试GSM8K上达到当前最优水平,甚至超越经过微调且配备验证器的GPT-3模型。

思维链提示在大型语言模型中激发推理能力 | 最新论文 | HyperAI超神经