16日前
MuggleMath:クエリおよび応答の拡張が数学推論に与える影響の評価
Chengpeng Li, Zheng Yuan, Hongyi Yuan, Guanting Dong, Keming Lu, Jiancan Wu, Chuanqi Tan, Xiang Wang, Chang Zhou

要約
数学推論における大規模言語モデル(LLM)のファインチューニングにおいて、クエリの進化と多様な推論経路を用いたデータ拡張が実証的に有効であることが確認されており、オープンソースのLLMと最先端の専用LLMとの間の性能差を顕著に縮小している。本論文では、こうしたデータ拡張の有効性についての調査を行い、以下の3つの問いに答えることを目的としている:(1)どのようなデータ拡張戦略がより効果的か;(2)拡張データ量とモデル性能のスケーリング関係はいかなるものか;(3)データ拡張は、ドメイン外の数学推論タスクへの一般化を促進するか。これに向け、GSM8KおよびMATHデータセットからクエリを複雑化・多様化し、複数の推論経路をサンプリングすることで、新たなデータセットであるAugGSM8KおよびAugMATHを構築した。これらのデータセット上でLLaMAモデルをファインチューニングすることで、MuggleMathと呼ばれる一連のLLMを獲得した。MuggleMathは、GSM8KおよびMATHの両タスクにおいて、新たな最先端性能を達成した。GSM8KおよびMATHにおけるMuggleMathの性能と拡張データ量の関係について、それぞれ対数線形関係およびセグメント化された対数線形関係が明らかになった。一方で、AugGSM8KからMATHへのドメイン外一般化、およびAugMATHからGSM8Kへの一般化においては、性能向上が限定的であった。これは、より広範な数学的トピックをカバーするクエリの拡張が、一般化性能の向上に有効であることを示唆している。本研究で開発したコードおよび拡張データは、https://github.com/OFA-Sys/gsm8k-ScRel にて公開している。