11 天前

利用 GPT-4 代码解释器结合基于代码的自验证求解复杂数学应用题

Aojun Zhou, Ke Wang, Zimu Lu, Weikang Shi, Sichun Luo, Zipeng Qin, Shaoqing Lu, Anya Jia, Linqi Song, Mingjie Zhan, Hongsheng Li
利用 GPT-4 代码解释器结合基于代码的自验证求解复杂数学应用题
摘要

近年来,以GPT-4和PaLM-2为代表的大型语言模型(LLMs)在解决数学推理问题方面取得了显著进展。特别是OpenAI推出的最新版本GPT-4——GPT-4代码解释器(GPT-4 Code Interpreter),在多个具有挑战性的数学数据集上表现出卓越性能。本文通过引入对GPT-4代码解释器在代码使用频率(Code Usage Frequency)上的不同约束,系统探究了代码生成与执行对其推理能力的增强作用。研究发现,该模型的成功主要归因于其强大的代码生成与执行能力、对代码执行结果的评估能力,以及在接收到不合理输出时自动修正自身解答的能力。基于这一洞察,本文提出一种新颖且高效的提示方法——显式代码自验证(Explicit Code-based Self-Verification, CSV),以进一步提升GPT-4代码解释器的数学推理潜力。该方法采用零样本提示(zero-shot prompt)引导模型利用代码对自身答案进行自验证。当验证结果状态为“False”时,模型将自动修正其解题过程,这一机制类似于人类在数学考试中发现错误后进行纠错的行为。此外,我们还发现验证结果的状态可有效反映模型对解题结果的信心程度,从而显著提升多数投票(majority voting)机制的可靠性。结合GPT-4代码解释器与CSV方法,我们在MATH数据集上实现了令人瞩目的零样本准确率提升:从原始的53.9%提升至84.3%。

利用 GPT-4 代码解释器结合基于代码的自验证求解复杂数学应用题 | 最新论文 | HyperAI超神经