17日前
リラ:数学的推論のための統合ベンチマーク
Swaroop Mishra, Matthew Finlayson, Pan Lu, Leonard Tang, Sean Welleck, Chitta Baral, Tanmay Rajpurohit, Oyvind Tafjord, Ashish Sabharwal, Peter Clark, Ashwin Kalyan

要約
汎用的知能システムが野菜の買い物から気候モデリングに至るまで多様なタスクを遂行するためには、数学的推論能力が不可欠である。この分野におけるAIシステムの評価および向上を目的として、本研究ではLILAを提案する。LILAは、4つの次元に沿って構成された統合型の数学的推論ベンチマークであり、合計23の多様なタスクを含む。(i)数学的能力(例:算術、微積分)、(ii)言語形式(例:質問応答、穴埋め)、(iii)言語の多様性(例:言語なし、簡潔な言語)、(iv)外部知識(例:常識、物理学)。本ベンチマークは、既存の20のデータセットを拡張し、タスクの指示および解答をPythonプログラム形式で収集することで構築した。これにより、正解に加えて、解釈可能な解答を獲得することができる。さらに、分布外性能および言語の摂動に対するロバスト性を測定するための2つの評価データセットを導入した。最後に、LILAを用いて訓練された汎用的数学的推論モデル「BHASKARA」を紹介する。重要な点として、マルチタスク学習が顕著な性能向上をもたらす(単一タスクモデルと比較してF1スコア平均で21.83%の相対的向上)ことが明らかになったが、最も優れたモデルでも60.40%のスコアにとどまり、汎用的な数学的推論および理解能力のさらなる改善の余地が残されていることが示された。