13日前

GPT-4 コードインタプリタを用いたコードベース自己検証による難解な数学文章問題の解決

Aojun Zhou, Ke Wang, Zimu Lu, Weikang Shi, Sichun Luo, Zipeng Qin, Shaoqing Lu, Anya Jia, Linqi Song, Mingjie Zhan, Hongsheng Li
GPT-4 コードインタプリタを用いたコードベース自己検証による難解な数学文章問題の解決
要約

GPT-4やPaLM-2などの大規模言語モデル(LLM)の最近の進展により、数学的推論問題に対するアプローチに顕著な進歩がもたらされた。特に、OpenAIが公開したGPT-4の最新バージョンである「GPT-4 Code Interpreter」は、困難な数学データセットにおいて優れた性能を示している。本論文では、GPT-4 Code Interpreterにおける「コード使用頻度(Code Usage Frequency)」に異なる制約を設けることにより、コードの導入がLLMの推論能力をどのように向上させるかを検証する。その結果、同モデルの成功は、コードの生成・実行、コード実行結果の評価、および不適切な出力を受け取った際に解法を修正する能力に大きく起因していることが明らかになった。この知見に基づき、GPT-4 Code Interpreterの数学的推論能力をさらに強化するため、新たな効果的なプロンプティング手法である「明示的コードベース自己検証(Explicit Code-based Self-Verification, CSV)」を提案する。本手法は、GPT-4 Code Interpreterに対してゼロショットプロンプトを用い、自身の解答をコードを用いて自己検証するよう促す。検証結果が「False」と判定された場合には、モデルが自動的に解法を修正する仕組みを採用しており、これは数学試験における誤りの訂正プロセスに類似している。さらに、検証結果の状態が解法の信頼度を示す指標として機能することに着目し、多数決(majority voting)の効率を向上させることも可能である。GPT-4 Code InterpreterとCSVを組み合わせることで、MATHデータセットにおいて驚異的なゼロショット精度を達成した。具体的には、53.9%から84.3%まで向上(53.9% → 84.3%)を実現した。

GPT-4 コードインタプリタを用いたコードベース自己検証による難解な数学文章問題の解決 | 最新論文 | HyperAI超神経