vor 17 Tagen

BERTweet: Ein vortrainiertes Sprachmodell für englische Tweets

Dat Quoc Nguyen, Thanh Vu, Anh Tuan Nguyen

Abstract

Wir präsentieren BERTweet, das erste öffentlich verfügbare großskalige vortrainierte Sprachmodell für englische Tweets. Unser BERTweet besitzt dieselbe Architektur wie BERT-base (Devlin et al., 2019) und wurde mittels des RoBERTa-Vortrainierungsverfahrens (Liu et al., 2019) trainiert. Experimente zeigen, dass BERTweet starke Baselines wie RoBERTa-base und XLM-R-base (Conneau et al., 2020) übertrifft und auf drei Aufgaben im Bereich der Tweet-NLP – Part-of-Speech-Tagging, Named-Entity-Recognition und Textklassifikation – bessere Ergebnisse erzielt als die vorherigen State-of-the-Art-Modelle. Wir stellen BERTweet unter der MIT-Lizenz zur Verfügung, um zukünftige Forschung und Anwendungen an Tweet-Daten zu fördern. BERTweet ist unter https://github.com/VinAIResearch/BERTweet verfügbar.