FlauBERT: Unsupervised Language Model Pre-training für Französisch

Sprachmodelle sind zu einem zentralen Baustein geworden, um state-of-the-art-Ergebnisse in zahlreichen Aufgaben des Natural Language Processing (NLP) zu erzielen. Durch die Nutzung der großen Menge an momentan verfügbaren unlabeled Texten ermöglichen sie eine effiziente Vortrainingsmethode für kontinuierliche Wortrepräsentationen, die anschließend für eine spezifische Aufgabe feinabgestimmt werden können und zudem auf Satzebene kontextualisiert sind. Dies wurde für die englische Sprache bereits umfassend demonstriert, beispielsweise mittels kontextualisierter Repräsentationen (Dai und Le, 2015; Peters et al., 2018; Howard und Ruder, 2018; Radford et al., 2018; Devlin et al., 2019; Yang et al., 2019b). In diesem Artikel stellen wir FlauBERT vor, ein Modell, das auf einer sehr großen und heterogenen französischen Korpus trainiert wurde. Modelle unterschiedlicher Größe wurden mithilfe des neuen Supercomputers Jean Zay des französischen Nationalen Zentrums für wissenschaftliche Forschung (CNRS) trainiert. Wir wenden unsere französischen Sprachmodelle auf eine Vielzahl von NLP-Aufgaben (Textklassifikation, Paraphrasierung, natürliche Sprachschlussfolgerung, Parsing, Wortbedeutungsdisambiguierung) an und zeigen, dass sie in der Regel andere Vortrainingsansätze übertrumpfen. Verschiedene Versionen von FlauBERT sowie ein einheitliches Evaluationsprotokoll für die nachgeschalteten Aufgaben, das als FLUE (French Language Understanding Evaluation) bezeichnet wird, werden der Forschungsgemeinschaft zur Verfügung gestellt, um reproduzierbare Experimente im Bereich des französischen NLP zu fördern.