17 天前

FlauBERT:面向法语的无监督语言模型预训练

Hang Le, Loïc Vial, Jibril Frej, Vincent Segonne, Maximin Coavoux, Benjamin Lecouteux, Alexandre Allauzen, Benoît Crabbé, Laurent Besacier, Didier Schwab
FlauBERT:面向法语的无监督语言模型预训练
摘要

语言模型已成为在众多自然语言处理(NLP)任务中实现最先进性能的关键步骤。借助当前海量的未标注文本资源,语言模型能够高效地预训练连续的词向量表示,这些表示可在下游任务中进行微调,并在句子层面实现上下文感知的语义表征。这一方法在英语语言处理任务中已得到广泛验证,例如基于上下文的表示模型(Dai 和 Le,2015;Peters 等,2018;Howard 和 Ruder,2018;Radford 等,2018;Devlin 等,2019;Yang 等,2019b)。本文提出并公开了 FlauBERT,这是一种基于大规模且多样化的法语语料库训练而成的语言模型。我们利用法国国家科学研究中心(CNRS)新部署的 Jean Zay 超级计算机,训练了多种不同规模的模型。我们将所提出的法语语言模型应用于多种NLP任务(包括文本分类、释义识别、自然语言推理、句法分析和词义消歧),结果表明,大多数情况下,FlauBERT均优于其他预训练方法。本文还向研究社区公开了 FlauBERT 的多个版本,以及一套统一的下游任务评估协议,称为 FLUE(法语语言理解评估),旨在推动法语自然语言处理领域可复现的实验研究。