HyperAIHyperAI
vor 18 Tagen

RobBERT: Ein auf RoBERTa basierendes Sprachmodell für die niederländische Sprache

Pieter Delobelle, Thomas Winters, Bettina Berendt
RobBERT: Ein auf RoBERTa basierendes Sprachmodell für die niederländische Sprache
Abstract

In den letzten Jahren haben vortrainierte Sprachmodelle die Forschungslandschaft der natürlichen Sprachverarbeitung maßgeblich geprägt und zu erheblichen Leistungssteigerungen bei einer Vielzahl komplexer Sprachaufgaben geführt. Eines der prominentesten vortrainierten Sprachmodelle ist BERT, das sowohl in einer englischen als auch in einer mehrsprachigen Version veröffentlicht wurde. Obwohl multilinguale BERT-Modelle auf vielen Aufgaben gut abschneiden, zeigen jüngere Studien, dass BERT-Modelle, die auf einer einzigen Sprache trainiert wurden, die mehrsprachige Version signifikant übertrumpfen. Die Entwicklung eines niederländischen BERT-Modells birgt daher großes Potenzial für eine breite Palette von niederländischen NLP-Aufgaben. Während frühere Ansätze auf frühere Implementierungen von BERT zurückgriffen, um eine niederländische Version von BERT zu trainieren, haben wir RoBERTa, eine robust optimierte Variante von BERT, verwendet, um ein niederländisches Sprachmodell namens RobBERT zu trainieren. Wir haben die Leistung von RobBERT anhand verschiedener Aufgaben bewertet sowie die Bedeutung der Größe des Fine-Tuning-Datensatzes untersucht. Zudem haben wir die Relevanz sprachspezifischer Tokenizer und die Fairness des Modells analysiert. Unsere Ergebnisse zeigen, dass RobBERT die Stand der Technik für verschiedene Aufgaben verbessert und insbesondere bei kleineren Datensätzen deutlich besser abschneidet als andere Modelle. Diese Befunde belegen, dass RobBERT ein leistungsfähiges vortrainiertes Modell für eine Vielzahl niederländischer Sprachaufgaben darstellt. Die vortrainierten und fine-tunenden Modelle sind öffentlich zugänglich, um die Weiterentwicklung von Anwendungen im Bereich des niederländischen NLP zu unterstützen.