Analyse von Tweets in universelle Abhängigkeiten

Wir untersuchen das Problem der Analyse von Tweets mit Universal Dependencies. Wir erweitern die UD-Richtlinien, um besondere Konstruktionen in Tweets abzudecken, die die Tokenisierung, die Wortarten-Zuordnung und die beschrifteten Abhängigkeiten beeinflussen. Unter Verwendung dieser erweiterten Richtlinien erstellen wir ein neues Tweet-Treebank für Englisch (Tweebank v2), das viermal so groß ist wie das (unbeschriftete) Tweebank v1, das von Kong et al. (2014) eingeführt wurde. Wir beschreiben die Meinungsverschiedenheiten zwischen unseren Annotatoren und zeigen, dass es aufgrund der Ambiguität bei der Interpretation und Erklärung von Tweets schwierig ist, konsistente Annotationen zu liefern. Trotzdem bauen wir unter Verwendung des neuen Treebanks ein Pipeline-System auf, um rohe Tweets in UD zu parsen. Um Annotation-Rausch zu reduzieren, ohne dabei die Rechenleistung zu opfern, schlagen wir eine neue Methode vor, um ein Ensemble von 20 transaktionsbasierten Parsern in einen einzigen zu destillieren. Unser Parser erreicht eine Verbesserung von 2,2 Punkten im LAS im Vergleich zur nicht-ensemble-basierten Baseline und übertrifft Parsers, die den aktuellen Stand der Technik auf anderen Treebanks darstellen, sowohl in Genauigkeit als auch in Geschwindigkeit.