11 天前

XLM-E：通过ELECTRA实现跨语言语言模型预训练

Zewen Chi, Shaohan Huang, Li Dong, Shuming Ma, Bo Zheng, Saksham Singhal, Payal Bajaj, Xia Song, Xian-Ling Mao, Heyan Huang, Furu Wei

查看论文详情

摘要

本文提出了一种基于ELECTRA风格的任务，用于跨语言语言模型的预训练。具体而言，我们设计了两项预训练任务，分别为多语言替换词检测（multilingual replaced token detection）和翻译替换词检测（translation replaced token detection）。此外，我们基于多语言语料库与平行语料库对模型（命名为XLM-E）进行了预训练。实验结果表明，XLM-E在多种跨语言理解任务上均优于基线模型，且计算成本显著更低。进一步分析显示，XLM-E具有更强的跨语言迁移能力。