2 个月前

Beto、Bentz、Becas：BERT在跨语言任务中的惊人有效性

Shijie Wu; Mark Dredze

摘要

预训练上下文表示模型（Peters 等，2018；Devlin 等，2018）在许多自然语言处理任务中推动了最先进水平的发展。最新的 BERT 版本（Devlin，2018）包括一个同时在 104 种语言上进行预训练的模型，在零样本跨语言自然语言推理任务中表现出色。本文探讨了多语言 BERT（mBERT）作为零样本语言迁移模型在 5 项涵盖来自不同语系的总共 39 种语言的自然语言处理任务中的更广泛跨语言潜力：自然语言推理（NLI）、文档分类、命名实体识别（NER）、词性标注（POS tagging）和依存句法分析。我们将 mBERT 与已发表的最佳零样本跨语言迁移方法进行了比较，发现 mBERT 在每项任务中都具有竞争力。此外，我们研究了利用 mBERT 进行此类迁移的最有效策略，确定了 mBERT 在多大程度上能够摆脱特定语言特征的影响，并测量了影响跨语言迁移的因素。