
摘要
当前最先进的多语言预训练模型(如多语言BERT和XLM-R)的主要目标是通过零样本或少样本的跨语言迁移,推动低资源语言的自然语言处理(NLP)应用发展。然而,由于模型容量有限,其在低资源语言以及预训练阶段未见过的语言上的迁移性能反而最弱。为此,我们提出MAD-X——一种基于适配器(adapter)的框架,通过学习模块化的语言与任务表征,实现对任意任务和语言的高可移植性与参数高效迁移。此外,我们引入了一种新颖的可逆适配器架构,并提出一种强大的基线方法,用于将预训练的多语言模型适配至新语言。在代表性语种类型多样化的语言集合上,MAD-X在命名实体识别和因果常识推理任务中的跨语言迁移性能均超越现有最先进水平,并在问答任务上取得了具有竞争力的结果。相关代码与适配器已公开发布于AdapterHub.ml。