11日前

GSM8Kで97%以上を達成するための鍵:数学文章題におけるLLMのより良いソルバーとしての性能向上には、問題の深層的理解が不可欠である

Qihuang Zhong, Kang Wang, Ziyang Xu, Juhua Liu, Liang Ding, Bo Du
GSM8Kで97%以上を達成するための鍵:数学文章題におけるLLMのより良いソルバーとしての性能向上には、問題の深層的理解が不可欠である
要約

チェーン・オブ・シンキング(CoT)プロンプティングは、さまざまな推論タスクにおいて大規模言語モデル(LLM)の性能を向上させた。しかし、CoTは複雑な数学文章問題に対処する上で依然として限界があり、主に以下の3つの課題に直面している:意味理解の誤り、計算ミス、ステップの漏れ。既存の研究では計算ミスやステップの漏れに対処する試みがなされているが、LLMの推論性能を制限する主要因である意味理解の誤りについてはほとんど無視されてきた。この問題に応じて、本研究では「問題の深層的理解(Deeply Understanding the Problems: DUP)」というシンプルながら効果的な手法を提案する。本手法は、LLMが問題を深く理解し、推論に必要な核心的な情報を正確に抽出できるように促すことを目的としている。10の多様な推論ベンチマークにおける広範な実験の結果、DUPは他の手法と比べて一貫して大幅な性能向上を達成した。特に注目すべきは、ゼロショット設定下でGSM8Kベンチマークにおいて97.1%の精度を達成し、新たなSOTA(最良の成果)を記録した点である。

GSM8Kで97%以上を達成するための鍵:数学文章題におけるLLMのより良いソルバーとしての性能向上には、問題の深層的理解が不可欠である | 最新論文 | HyperAI超神経