HLT@SUDA bei SemEval-2019 Aufgabe 1: UCCA-Graphparsen als Constituent-Tree-Parsen

Diese Arbeit beschreibt einen einfachen Ansatz zum Parsen semantischer Graphen im UCCA-Format. Der zentrale Ansatz besteht darin, einen UCCA-semantischen Graphen in einen Constituentenbaum umzuwandeln, wobei zusätzliche, gezielt entworfene Etiketten verwendet werden, um entfernte Kanten und diskontinuierliche Knoten zu markieren, um diese später wiederherstellen zu können. Auf diese Weise können bestehende syntaktische Parsing-Techniken genutzt werden. Auf Basis von Datenstatistiken werden diskontinuierliche Knoten direkt anhand der Ausgabeetiketten des Constituenten-Parsers wiederhergestellt, während eine Biaffine-Klassifikationsmodell zur Wiederherstellung komplexerer entfernter Kanten eingesetzt wird. Das Klassifikationsmodell und der Constituenten-Parser werden gleichzeitig im Rahmen eines Multi-Task-Lernrahmens trainiert. In den offenen Tracks werden multilinguale BERT-Features als zusätzliche Merkmale verwendet. Unser System erreicht bei sechs englischen/deutschen geschlossenen und offenen Tracks unter sieben teilnehmenden Systemen den ersten Platz. Für den siebten, cross-lingualen Track, bei dem nur wenig Trainingsdaten für Französisch verfügbar sind, schlagen wir einen Ansatz mit Sprach-Embeddings vor, um englische und deutsche Trainingsdaten zu nutzen. Hierbei erreicht unser Ansatz den zweiten Platz.