Annotierung der Tweebank-Korpus für Named Entity Recognition und Aufbau von NLP-Modellen für die Analyse sozialer Medien

Soziale Medien-Daten wie Twitter-Nachrichten („Tweets“) stellen aufgrund ihrer kurzen, verrauschten und umgangssprachlichen Natur eine besondere Herausforderung für NLP-Systeme dar. Aufgaben wie die Erkennung benannter Entitäten (Named Entity Recognition, NER) und die syntaktische Analyse erfordern hochgradig domainspezifische Trainingsdaten, um eine gute Leistung zu erzielen. Bisher existiert kein umfassender Trainingskorpus, der sowohl für die NER als auch für syntaktische Analysen (z. B. Part-of-Speech-Tagging, Dependency-Parsing) von Tweets geeignet ist. Obwohl einige öffentlich verfügbare annotierte NLP-Datensätze für Tweets existieren, sind diese lediglich für einzelne Aufgaben konzipiert. In dieser Studie zielen wir darauf ab, Tweebank-NER, eine englischsprachige NER-Korpus basierend auf Tweebank V2 (TB2), zu erstellen, state-of-the-art (SOTA) Tweet-NLP-Modelle auf TB2 zu trainieren und eine NLP-Pipeline namens Twitter-Stanza bereitzustellen. Wir annotieren benannte Entitäten in TB2 mithilfe von Amazon Mechanical Turk und bewerten die Qualität unserer Annotationen. Wir trainieren die Stanza-Pipeline auf TB2 und vergleichen sie mit alternativen NLP-Frameworks (z. B. FLAIR, spaCy) sowie transformer-basierten Modellen. Der Stanza-Tokenizer und Lemmatizer erreichen SOTA-Leistung auf TB2, während der Stanza-NER-Tagger, der Part-of-Speech (POS)-Tagger und der Dependency-Parser gegenüber nicht-transformer-basierten Modellen konkurrenzfähige Ergebnisse erzielen. Transformer-basierte Modelle etablieren eine starke Baseline in Tweebank-NER und erreichen neue SOTA-Ergebnisse im POS-Tagging und Dependency-Parsing auf TB2. Wir veröffentlichen das Datenset und stellen sowohl die Stanza-Pipeline als auch BERTweet-basierte Modelle „off-the-shelf“ für zukünftige Forschung im Bereich Tweet-NLP zur Verfügung. Quellcode, Daten und vortrainierte Modelle sind unter folgender URL verfügbar: \url{https://github.com/social-machines/TweebankNLP}.