Zu besseren UD-Parsing: Tief kontextualisierte Wort-Einbettungen, Ensemble und Treebank-Konkatenation

Dieses Papier beschreibt unser System (HIT-SCIR), das für die CoNLL 2018 gemeinsame Aufgabe zur multilingualen Analyse von Rohtext zu Universal Dependencies eingereicht wurde. Unser Beitrag basiert auf dem siegreichen System der Stanford University für die CoNLL 2017 gemeinsame Aufgabe und umfasst zwei effektive Erweiterungen: 1) die Integration tiefer kontextualisierter Wort-Einbettungen sowohl in den Teil-of-Speech Tagger als auch in den Parser; 2) das Ensemble von Parsern, die mit unterschiedlichen Initialisierungen trainiert wurden. Wir untersuchen zudem verschiedene Methoden zur Kombination von Treebanks für weitere Verbesserungen. Die experimentellen Ergebnisse auf den Entwicklungsdaten zeigen die Effektivität unserer Methoden. In der abschließenden Bewertung belegte unser System den ersten Platz gemessen an der LAS (75,84 %) und übertraf die anderen Systeme deutlich.