2ヶ月前
MATHデータセットを用いた数学問題解決の測定
Dan Hendrycks; Collin Burns; Saurav Kadavath; Akul Arora; Steven Basart; Eric Tang; Dawn Song; Jacob Steinhardt

要約
多くの知的活動が数学的な問題解決を必要とする一方で、このスキルはコンピュータの能力を超えたものである。機械学習モデルにおけるこの能力を測定するために、我々は12,500問の難易度の高い競技数学問題からなる新しいデータセットMATHを導入する。MATHの各問題には、ステップバイステップの完全な解説が付いており、これを使用してモデルに解答の導出過程と説明を生成させることが可能である。将来の研究を促進し、MATHでの精度を向上させるために、数学の基礎を教えるのに役立つ大規模な補助的な事前学習データセットも提供する。巨大なトランスフォーマー・モデルを使用しても、MATHでの精度は依然として相対的に低いという結果を得ている。さらに、スケーリング傾向が続く場合、単に予算やモデルパラメータ数を増やすだけでは強力な数学的推論を達成することは現実的ではないことがわかった。トランスフォーマーのスケーリングが他のテキストベースのタスクの大半を自動的に解決しているにもかかわらず、現在のところスケーリングはMATHを解決していない。数学的な問題解決においてより大きな進展を得るためには、広範な研究コミュニティからの新たなアルゴリズム的な進歩が必要となる可能性が高い。