2ヶ月前
XNLI: 言語間の文表現の評価
Alexis Conneau; Guillaume Lample; Ruty Rinott; Adina Williams; Samuel R. Bowman; Holger Schwenk; Veselin Stoyanov

要約
最先端の自然言語処理システムは、アノテーションデータという形の監督に依存して、能力のあるモデルを学習します。これらのモデルは通常、単一の言語(主に英語)のデータで訓練され、その言語を超えて直接使用することはできません。すべての言語でデータを集めることが現実的ではないため、クロスリンギアルゴリズム理解(XLU)と低資源言語間転送への関心が高まっています。本研究では、マルチジャンル自然言語推論コーパス(MultiNLI)の開発セットとテストセットを15の言語に拡張し、スワヒリやウルドゥーなどの低資源言語も含む評価セットを構築しました。当該データセット「XNLI」がクロスリンギアルゴリズム文理解に関する研究を促進し、情報量豊かな標準的な評価タスクを提供することを期待しています。さらに、複数言語での文理解の基準となるいくつかの手法を提供しており、これらには機械翻訳システムに基づく2つの手法と並行データを使用して訓練された多言語対応の単語袋モデルおよびLSTMエンコーダーを使用する2つの手法が含まれます。私たちはXNLIが実用的かつ挑戦的な評価環境であることを確認し、利用可能な基準の中でもテストデータを直接翻訳することが最高の性能を示すことを発見しました。