2ヶ月前

GLUE: 自然言語理解のためのマルチタスクベンチマークおよび分析プラットフォーム

Alex Wang; Amanpreet Singh; Julian Michael; Felix Hill; Omer Levy; Samuel R. Bowman
GLUE: 自然言語理解のためのマルチタスクベンチマークおよび分析プラットフォーム
要約

自然言語理解(NLU)技術が実践的にも科学的な研究対象としても最大限に有用であるためには、一般的でなければならない:特定のタスクやデータセットにのみ特化した方法ではなく、言語を処理する能力が必要である。この目標達成のために、多様な既存のNLUタスクにおけるモデルの性能評価と分析を行うためのツール「General Language Understanding Evaluation ベンチマーク(GLUE)」を導入する。GLUEはモデル非依存であるが、特定のタスクには訓練データが非常に限られているため、タスク間での知識共有を奨励している。さらに、手作業で作成された診断テストスイートを提供し、NLUモデルの詳細な言語学的分析を可能にする。現在のマルチタスク学習および転移学習手法に基づくベースラインを評価した結果、これらの手法は各タスクごとに個別のモデルを訓練する場合の総合的な性能に対してすぐに大幅な改善を与えないことが判明した。これは、一般的かつ堅牢なNLUシステムを開発する余地があることを示唆している。