2ヶ月前

XTREME：異言語一般化の評価を目的とした多言語・多タスクベンチマーク

{Aditya Siddhant, Junjie Hu, Sebastian Ruder, Orhan Firat, Melvin Johnson, Graham Neubig}

要約

自然言語処理（NLP）における機械学習モデルの応用分野で近年顕著な進展は、多様なタスクにわたりモデルを評価するためのベンチマークに支えられてきた。しかしながら、こうした広範なカバーを備えたベンチマークは、主に英語に限定されており、多言語モデルへの関心が高まる中でも、多様な言語とタスクにおいて多言語手法を包括的に評価できるベンチマークは依然として存在しない。このような状況を踏まえ、本研究では「クロスリンガルTRansfer Evaluation of Multilingual Encoders（XTREME）」と呼ばれるベンチマークを導入する。これは、40言語および9種類のタスクを対象としたマルチタスクベンチマークであり、多言語表現のクロスリンガル一般化能力を評価することを目的としている。我々は、英語でテストされたモデルは多くのタスクにおいて人間の性能に達している一方で、クロスリンガルに転移されたモデルの性能には依然として顕著なギャップが存在することを示した。特に構文解析および文検索タスクにおいてその差は顕著である。また、言語間での結果のばらつきも大きく見られた。本ベンチマークを公開することで、多様かつ代表的な言語とタスクの間で言語知識を効果的に転移するクロスリンガル学習手法に関する研究を促進することを目的としている。