17 天前

FlauBERT：面向法语的无监督语言模型预训练

Hang Le, Loïc Vial, Jibril Frej, Vincent Segonne, Maximin Coavoux, Benjamin Lecouteux, Alexandre Allauzen, Benoît Crabbé, Laurent Besacier, Didier Schwab

查看论文详情

摘要

语言模型已成为在众多自然语言处理（NLP）任务中实现最先进性能的关键步骤。借助当前海量的未标注文本资源，语言模型能够高效地预训练连续的词向量表示，这些表示可在下游任务中进行微调，并在句子层面实现上下文感知的语义表征。这一方法在英语语言处理任务中已得到广泛验证，例如基于上下文的表示模型（Dai 和 Le，2015；Peters 等，2018；Howard 和 Ruder，2018；Radford 等，2018；Devlin 等，2019；Yang 等，2019b）。本文提出并公开了 FlauBERT，这是一种基于大规模且多样化的法语语料库训练而成的语言模型。我们利用法国国家科学研究中心（CNRS）新部署的 Jean Zay 超级计算机，训练了多种不同规模的模型。我们将所提出的法语语言模型应用于多种NLP任务（包括文本分类、释义识别、自然语言推理、句法分析和词义消歧），结果表明，大多数情况下，FlauBERT均优于其他预训练方法。本文还向研究社区公开了 FlauBERT 的多个版本，以及一套统一的下游任务评估协议，称为 FLUE（法语语言理解评估），旨在推动法语自然语言处理领域可复现的实验研究。