BERTje: Ein niederländisches BERT-Modell

Der transformerbasierte vortrainierte Sprachmodell BERT hat die Leistungsfähigkeit vieler natürlicher Sprachverarbeitungsaufgaben (Natural Language Processing, NLP) erheblich verbessert. Unter Verwendung derselben Architektur und Parameter haben wir ein monolinguales niederländisches BERT-Modell namens BERTje entwickelt und evaluiert. Im Vergleich zum mehrsprachigen BERT-Modell, das zwar Niederländisch enthält, jedoch ausschließlich auf Wikipedia-Text basiert, beruht BERTje auf einem großen und vielfältigen Datensatz von 2,4 Milliarden Tokens. BERTje erzielt konsistent bessere Ergebnisse als das gleich große mehrsprachige BERT-Modell bei nachgeschalteten NLP-Aufgaben (Part-of-Speech-Tagging, Named-Entity-Recognition, semantische Rollenmarkierung und Sentiment-Analyse). Unser vortrainiertes niederländisches BERT-Modell steht unter https://github.com/wietsedv/bertje zur Verfügung.