XLM-T: Multilinguale Sprachmodelle in Twitter für Sentiment-Analyse und darüber hinaus

Sprachmodelle sind in der aktuellen NLP allgegenwärtig, und ihre multilinguale Fähigkeit hat in letzter Zeit erhebliche Aufmerksamkeit erfahren. Allerdings haben bisherige Analysen nahezu ausschließlich (multilinguale Varianten von) Standardbenchmarks betrachtet und sich auf saubere Pre-Training-Daten sowie aufaufgabenbezogene Korpora als multilinguale Signale gestützt. In diesem Paper stellen wir XLM-T vor, ein Modell zum Training und zur Evaluierung multilanger Sprachmodelle auf Twitter. Wir präsentieren: (1) eine neue, starke multilinguale Baseline, bestehend aus einem XLM-R-Modell (Conneau et al. 2020), das auf Millionen von Tweets in über dreißig Sprachen vortrainiert wurde, zusammen mit Startcode zur anschließenden Feinabstimmung auf eine Zielaufgabe; sowie (2) eine Reihe einheitlicher Sentiment-Analyse-Datensätze für Twitter in acht verschiedenen Sprachen sowie ein XLM-T-Modell, das auf diesen Datensätzen feinabgestimmt wurde.