16 天前
在GSM8K上实现>97%的性能:深入理解问题使LLMs成为数学应用题更优的求解器
Qihuang Zhong, Kang Wang, Ziyang Xu, Juhua Liu, Liang Ding, Bo Du

摘要
思维链(Chain-of-Thought, CoT)提示方法在提升大语言模型(Large Language Models, LLMs)在各类推理任务中的表现方面取得了显著成效。然而,面对复杂的数学应用题,CoT方法仍存在明显不足,主要表现为三大缺陷:语义理解错误、计算错误以及步骤遗漏错误。以往研究多聚焦于缓解计算错误与步骤遗漏问题,却忽视了语义理解错误这一关键瓶颈,而后者正是制约LLMs推理能力的核心因素。为此,本文提出一种简单但高效的新方法——深度理解问题(Deeply Understanding the Problems, DUP),旨在通过解决语义理解错误,显著提升LLMs的数学问题求解能力。该方法的核心思想是引导LLMs深入理解题目含义,精准提取用于推理的关键信息,从而实现更准确的逻辑推导。在10个多样化的推理基准测试上的大量实验表明,DUP方法在各项任务中均显著优于现有方法,性能提升显著。更令人振奋的是,在GSM8K基准测试中,DUP在零样本(zero-shot)设置下实现了97.1%的准确率,创下新的最先进(SOTA)水平。