Ein verbessertes neuronales Netzwerkmodell für die gemeinsame POS-Tagging und Abhängigkeitsanalyse

Wir schlagen ein neues neuronales Netzwerkmodell für die gemeinsame Wortarten-(POS-)Tagging und Abhängigkeitsanalyse vor. Unser Modell erweitert den bekannten BIST graphbasierten Abhängigkeitsparser (Kiperwasser und Goldberg, 2016) durch die Einbindung eines BiLSTM-basierten Tagging-Komponenten, um automatisch vorhergesagte POS-Tags für den Parser zu generieren. Bei der Benchmarkevaluation am englischen Penn Treebank erreicht unser Modell starke UAS- und LAS-Werte von 94,51 % und 92,87 %, was eine Verbesserung um mehr als 1,5 %-Punkte im Vergleich zum BIST graphbasierten Parser darstellt. Zudem erzielt es einen Stand-der-Technik-POS-Tagging-Akkuratz von 97,97 %. Des Weiteren zeigen die Experimente zur Analyse von 61 „großen“ Universal Dependencies Treebanks aus Rohdaten, dass unser Modell den Baseline-Parser UDPipe (Straka und Straková, 2017) mit einem durchschnittlichen POS-Tagging-Wert von 0,8 % und einem durchschnittlichen LAS-Wert von 3,6 % übertrifft. Zusätzlich erhalten wir mit unserem Modell auch Stand-der-Technik-Ergebnisse für nachgelagerte Aufgaben wie die Extraktion biomedizinischer Ereignisse und die Meinungsanalyse. Unser Code sowie alle vortrainierten Modelle sind unter folgender URL verfügbar: https://github.com/datquocnguyen/jPTDP