
摘要
大规模跨语言语言模型(LM),如mBERT、Unicoder和XLM,在跨语言表征学习方面已取得显著成果。然而,当应用于零样本跨语言迁移任务时,现有大多数方法仅使用单一语言的输入进行语言模型微调,未能充分利用不同语言之间固有的跨语言对齐关系,而这种对齐关系对多语言任务至关重要。本文提出FILTER,一种增强型融合方法,通过引入跨语言数据进行XLM的微调。具体而言,FILTER首先在浅层网络中独立编码源语言文本及其目标语言的翻译文本,随后在中间层执行跨语言融合,以提取多语言知识,最后进行进一步的语言特定编码。在推理阶段,模型基于目标语言的输入文本及其在源语言中的翻译进行预测。对于分类等简单任务,目标语言的翻译文本与源语言文本共享相同标签;然而,对于问答、命名实体识别(NER)和词性标注(POS tagging)等更复杂任务,这种共享标签的准确性会下降甚至不可用。为解决该问题,我们进一步提出一种基于自动生成的软伪标签的KL散度自教学损失函数,用于模型训练。大量实验表明,FILTER在两个具有挑战性的多语言多任务基准测试XTREME和XGLUE上均取得了新的最先进性能。