TheoremQA: 定理駆動型の質問応答データセット

最近の大規模言語モデル(LLM)であるGPT-4やPaLM-2は、GSM8Kのような基本的な数学問題を解く上で90%以上の精度を達成し、大きな進歩を遂げています。しかし、これらのモデルが領域固有の知識(つまり定理)を必要とするより難しい数学問題を解く能力についてはまだ調査が行われていません。本論文では、TheoremQAという新しい定理駆動型質問応答データセットを紹介します。これは、AIモデルが定理を適用して難易度の高い科学問題を解く能力を評価するために設計された最初のデータセットです。TheoremQAは、数学、物理学、電気電子・コンピュータ工学(EE&CS)、および金融学から350の定理(例:テイラーの定理、ラグランジュの定理、ハフマン符号化、量子力学の定理、弾性理論の定理など)をカバーする800の高品質な質問で構成されています。これらの質問は領域専門家によって選別されました。私たちは16種類の大規模言語モデルとコードモデルについて、「思考連鎖」や「プログラム思考」といった異なるプロンプト戦略を使用して評価を行いました。その結果、GPT-4は他のモデルに匹敵する能力を持ち、Program-of-Thoughts Promptingを使用することで51%の精度を達成しました。一方で、既存のオープンソースモデルはすべて15%未満であり、ランダム推測基準を超える程度に過ぎません。TheoremQAが多様性と広範なカバレッジを持つことを考慮に入れると、私たちはこれを大規模言語モデルが難易度の高い科学問題を解く能力を評価するためのより良いベンチマークとして使用できると考えています。データとコードはhttps://github.com/wenhuchen/TheoremQA で公開されています。