
要約
大規模な多言語言語モデル(LM)であるmBERT、Unicoder、XLMなどは、多言語表現学習において大きな成功を収めている。しかし、ゼロショット多言語転移タスクに適用する際、既存の大多数の手法はLMのファインチューニングに単一言語の入力を使用しており、多言語タスクに不可欠な異なる言語間の内在的な多言語整合性を活用していない。本論文では、XLMのファインチューニングに多言語データを入力として取り入れる強化型融合手法「FILTER」を提案する。具体的には、FILTERは浅層部で対象言語の翻訳文と元言語のテキストを独立してエンコードし、中間層で言語間融合を実施して多言語知識を抽出した後、さらに言語固有のエンコードを実行する。推論時には、ターゲット言語の入力テキストとその元言語への翻訳文に基づいて予測を行う。分類などの単純なタスクでは、ターゲット言語に翻訳されたテキストは元言語と同一のラベルを持つが、質問応答やNER、POSタギングなどのより複雑なタスクでは、この共有ラベルの正確性が低下するか、そもそも利用不可能となる。この問題に対処するため、我々は、ターゲット言語の翻訳テキストに対して自動生成されたソフトな偽ラベルに基づき、追加のKLダイバージェンス自己教師学習損失を提案する。広範な実験により、FILTERがXTREMEおよびXGLUEという2つの挑戦的な多言語マルチタスクベンチマークにおいて、新たなSOTA(State-of-the-Art)性能を達成することが実証された。