HyperAIHyperAI

Command Palette

Search for a command to run...

XTREME:異言語一般化の評価を目的とした多言語・多タスクベンチマーク

Aditya Siddhant Junjie Hu Sebastian Ruder Orhan Firat Melvin Johnson Graham Neubig

概要

自然言語処理(NLP)における機械学習モデルの応用分野で近年顕著な進展は、多様なタスクにわたりモデルを評価するためのベンチマークに支えられてきた。しかしながら、こうした広範なカバーを備えたベンチマークは、主に英語に限定されており、多言語モデルへの関心が高まる中でも、多様な言語とタスクにおいて多言語手法を包括的に評価できるベンチマークは依然として存在しない。このような状況を踏まえ、本研究では「クロスリンガルTRansfer Evaluation of Multilingual Encoders(XTREME)」と呼ばれるベンチマークを導入する。これは、40言語および9種類のタスクを対象としたマルチタスクベンチマークであり、多言語表現のクロスリンガル一般化能力を評価することを目的としている。我々は、英語でテストされたモデルは多くのタスクにおいて人間の性能に達している一方で、クロスリンガルに転移されたモデルの性能には依然として顕著なギャップが存在することを示した。特に構文解析および文検索タスクにおいてその差は顕著である。また、言語間での結果のばらつきも大きく見られた。本ベンチマークを公開することで、多様かつ代表的な言語とタスクの間で言語知識を効果的に転移するクロスリンガル学習手法に関する研究を促進することを目的としている。


AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助
すぐに使える GPU
最適な料金体系

HyperAI Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています