17日前

XLM-T:感情分析およびそれ以外のタスクにおけるTwitter向け多言語言語モデル

Francesco Barbieri, Luis Espinosa Anke, Jose Camacho-Collados
XLM-T:感情分析およびそれ以外のタスクにおけるTwitter向け多言語言語モデル
要約

現在の自然言語処理(NLP)において、言語モデルは広く用いられており、その多言語処理能力は最近、大きな注目を集めている。しかし、これまでの分析はほぼすべて、標準的なベンチマーク(およびその多言語版)に焦点を当てており、多言語信号として清浄な事前学習データとタスク固有のコーパスに依存してきた。本論文では、Twitter上で多言語言語モデルの学習と評価を行うためのXLM-Tモデルを紹介する。本研究では以下の貢献を行う:(1)30言語以上で数百万件のツイートを事前学習したXLM-R(Conneau他、2020)モデルを用いた強力な新たな多言語ベースラインを提供し、ターゲットタスクに対する微調整用の初期コードも併せて提供する;(2)8言語にわたる統一された感情分析用ツイッターデータセットと、これらに微調整されたXLM-Tモデルを提供する。