6ヶ月前

概要

大規模言語モデル（LLMs）は、さまざまな数学的推論ベンチマークにおいて優れた性能を達成している。しかし、これらのモデルが本質的に数学的知識を理解・適用しているのか、それとも数学的推論のための単なる「ショートカット」に依存しているのかについては、ますます議論が高まっている。その重要な証拠の一つとして、数学の問題文をわずかに変更しただけでも、LLMsが誤った振る舞いを示す事例が頻繁に見られる。このことから、問題文の多様な変形を対象とした広範なテストを通じて、LLMsの数学的推論能力のロバスト性（耐障害性）を評価する必要性が生じた。そこで本研究では、GSM8Kを多様な数学的摂動（perturbations）で拡張した、敵対的Grade School Math（GSM-Plus）データセットを提案する。25種類のLLMと4種類のプロンプティング手法を用いた実験の結果、LLMsは数学的推論能力に程度の差は見られるものの、その性能は依然として十分なロバスト性を備えていないことが明らかになった。特に、GSM8Kで既に正解が得られていた問題についても、新たな文言が追加された場合や問題のターゲットが変更された場合に、LLMsが誤答を示すケースが顕著に確認された。また、既存のプロンプティング手法を組み合わせることでよりロバストな性能が達成可能かどうかを検討した結果、推論の目的と計算結果に基づいて各中間的思考を生成・検証する反復的手法（iterative method）を試行したところ、一部の条件下で性能の向上が見られた。

ソースPDF