vor 17 Tagen

BERTje: Ein niederländisches BERT-Modell

Wietse de Vries, Andreas van Cranenburgh, Arianna Bisazza, Tommaso Caselli, Gertjan van Noord, Malvina Nissim

Abstract

Der transformerbasierte vortrainierte Sprachmodell BERT hat die Leistungsfähigkeit vieler natürlicher Sprachverarbeitungsaufgaben (Natural Language Processing, NLP) erheblich verbessert. Unter Verwendung derselben Architektur und Parameter haben wir ein monolinguales niederländisches BERT-Modell namens BERTje entwickelt und evaluiert. Im Vergleich zum mehrsprachigen BERT-Modell, das zwar Niederländisch enthält, jedoch ausschließlich auf Wikipedia-Text basiert, beruht BERTje auf einem großen und vielfältigen Datensatz von 2,4 Milliarden Tokens. BERTje erzielt konsistent bessere Ergebnisse als das gleich große mehrsprachige BERT-Modell bei nachgeschalteten NLP-Aufgaben (Part-of-Speech-Tagging, Named-Entity-Recognition, semantische Rollenmarkierung und Sentiment-Analyse). Unser vortrainiertes niederländisches BERT-Modell steht unter https://github.com/wietsedv/bertje zur Verfügung.