
要約
ラベル付き訓練データの不足は、多くの場合、NLP(自然言語処理)モデルの多言語化を妨げています。最近のクロスリンガル理解(XLU: Cross-Lingual Understanding)に関する進展により、この分野で一定の進歩が見られ、言語普遍表現を使用して言語間の壁を埋める試みが行われています。しかし、言語問題が解決されたとしても、ある言語で訓練されたモデルは、言語や文化による自然なドメインシフトのために別の言語に完全に転移することはできません。本研究では、半教師ありクロスリンガル理解の設定を考えます。ここでは、ソース言語(英語)にはラベル付きデータが存在しますが、ターゲット言語にはラベルなしデータのみが利用可能です。我々は最先端のクロスリンガル手法と、最近提案された弱教師あり学習手法である教師なし事前学習や教師なしデータ拡張を組み合わせることで、XLUにおける言語ギャップとドメインギャップを同時に解消することを目指しています。ドメインギャップに対処することが重要であることを示し、強力なベースラインを超えてクロスリンガル文書分類において新たな最先端性能を達成しました。