
摘要
预训练上下文表示模型(Peters 等,2018;Devlin 等,2018)在许多自然语言处理任务中推动了最先进水平的发展。最新的 BERT 版本(Devlin,2018)包括一个同时在 104 种语言上进行预训练的模型,在零样本跨语言自然语言推理任务中表现出色。本文探讨了多语言 BERT(mBERT)作为零样本语言迁移模型在 5 项涵盖来自不同语系的总共 39 种语言的自然语言处理任务中的更广泛跨语言潜力:自然语言推理(NLI)、文档分类、命名实体识别(NER)、词性标注(POS tagging)和依存句法分析。我们将 mBERT 与已发表的最佳零样本跨语言迁移方法进行了比较,发现 mBERT 在每项任务中都具有竞争力。此外,我们研究了利用 mBERT 进行此类迁移的最有效策略,确定了 mBERT 在多大程度上能够摆脱特定语言特征的影响,并测量了影响跨语言迁移的因素。