CamemBERT: Ein köstliches französisches Sprachmodell

Vortrainierte Sprachmodelle sind heute allgegenwärtig in der Verarbeitung natürlicher Sprache. Trotz ihres Erfolgs wurden die meisten verfügbaren Modelle entweder ausschließlich auf englischen Daten oder auf der Verkettung von Daten mehrerer Sprachen trainiert. Dies begrenzt die praktische Anwendung solcher Modelle – außer für die englische Sprache – erheblich. In diesem Paper untersuchen wir die Machbarkeit, monolinguale, auf Transformers basierende Sprachmodelle für andere Sprachen zu trainieren, wobei wir Französisch als Beispiel heranziehen und unsere Modelle anhand von Part-of-Speech-Tagging, Dependency-Parsing, Named-Entity-Recognition und Natural-Language-Inference-Aufgaben bewerten. Wir zeigen, dass die Nutzung von webgekrochten Daten der Nutzung von Wikipedia-Daten überlegen ist. Überraschenderweise zeigen wir, dass ein relativ kleiner, webgekrochener Datensatz (4 GB) Ergebnisse liefert, die ebenso gut sind wie die mit größeren Datensätzen (130+ GB) erzielten. Unser bestleistendes Modell, CamemBERT, erreicht oder übertrifft in allen vier aufgabenbezogenen Aufgaben die derzeitige State-of-the-Art.