
要約
私たちは、93の言語(30以上の異なる言語家族に属し、28の異なる文字体系で書かれている)の合同多言語文表現を学習するアーキテクチャを紹介します。当システムは、すべての言語に対して共有BPEボキャブラリーを使用する単一のBiLSTMエンコーダーと、補助デコーダーを組み合わせて公開されている並行コーパスで訓練されます。これにより、結果として得られる埋め込み上に英語注釈データのみを使用して分類器を学習させることができ、その分類器を任意の93の言語に変換することも可能になります。クロスリンギアルナチュラルランゲージインファレンス(XNLIデータセット)、クロスリンギアルドキュメント分類(MLDocデータセット)、並行コーパスマイニング(BUCCデータセット)に関する実験では、当アプローチの有効性が示されています。さらに、112の言語で整列された文の新しいテストセットを導入し、低リソース言語においてもマルチリンガルな類似性検索で強力な結果を得られることを示しています。当実装、事前学習済みエンコーダー、およびマルチリンガルテストセットは、https://github.com/facebookresearch/LASER から利用可能です。