11 天前

XLM-E:通过ELECTRA实现跨语言语言模型预训练

Zewen Chi, Shaohan Huang, Li Dong, Shuming Ma, Bo Zheng, Saksham Singhal, Payal Bajaj, Xia Song, Xian-Ling Mao, Heyan Huang, Furu Wei
XLM-E:通过ELECTRA实现跨语言语言模型预训练
摘要

本文提出了一种基于ELECTRA风格的任务,用于跨语言语言模型的预训练。具体而言,我们设计了两项预训练任务,分别为多语言替换词检测(multilingual replaced token detection)和翻译替换词检测(translation replaced token detection)。此外,我们基于多语言语料库与平行语料库对模型(命名为XLM-E)进行了预训练。实验结果表明,XLM-E在多种跨语言理解任务上均优于基线模型,且计算成本显著更低。进一步分析显示,XLM-E具有更强的跨语言迁移能力。

XLM-E:通过ELECTRA实现跨语言语言模型预训练 | 最新论文 | HyperAI超神经