
摘要
大型语言模型(LLM)在推理任务中的表现高度依赖于提示(prompt)设计,其中思维链(Chain-of-Thought, CoT)与自一致性(self-consistency)是提升推理能力的关键方法。然而,这些方法并未充分利用模型先前生成的答案来指导后续响应的生成。本文提出一种新型提示方法——渐进式提示(Progressive-Hint Prompting, PHP),该方法通过将先前生成的答案作为提示(hint),实现用户与LLM之间的自动多轮交互,逐步引导模型逼近正确答案。PHP与CoT及自一致性方法具有正交性,因此可轻松与当前最先进的技术相结合,进一步提升性能。我们在七个基准测试上开展了广泛而全面的实验。结果表明,PHP在显著提升准确率的同时,仍保持极高的效率。例如,在使用text-davinci-003模型并采用贪婪解码(greedy decoding)时,PHP在GSM8K数据集上的表现相比复杂思维链(Complex CoT)提升了4.2%;在采用自一致性策略时,样本路径数量减少了46.17%。在使用GPT-4与PHP相结合的情况下,我们在多个任务上达到了当前最优水平:SVAMP从89.1%提升至91.9%,GSM8K从92%提升至95.5%,AQuA从76.4%提升至79.9%,MATH从50.3%提升至53.9%。