Stark inkrementelle Constituency-Parsing mit Graph Neural Networks

Die Aufteilung von Sätzen in Syntaxbäume kann nachgeschaltete Anwendungen in der natürlichen Sprachverarbeitung (NLP) unterstützen. Transitionsbasierte Parser bauen Bäume durch Ausführung von Aktionen in einem Zustandsübergangssystem auf. Sie sind rechnerisch effizient und können maschinelles Lernen nutzen, um Aktionen basierend auf partiellen Bäumen vorherzusagen. Allerdings beruhen bestehende transitionbasierte Parser überwiegend auf dem Shift-Reduce-Übergangssystem, das nicht mit der Art und Weise übereinstimmt, wie Menschen Sätze bekanntermaßen verarbeiten. Psycholinguistische Forschung legt nahe, dass das menschliche Parsing stark inkrementell ist: Menschen erweitern einen einzigen Parsebaum, indem sie jeweils genau ein Token hinzufügen. In diesem Paper stellen wir ein neuartiges Übergangssystem namens attach-juxtapose vor. Es ist stark inkrementell: Es stellt einen partiellen Satz durch einen einzigen Baum dar; jede Aktion fügt genau ein Token in den partiellen Baum ein. Auf Basis dieses Übergangssystems entwickeln wir einen stark inkrementellen Parser. In jedem Schritt kodiert er den partiellen Baum mittels eines Graphen-Neuralen-Netzwerks und prognostiziert eine Aktion. Wir evaluieren unseren Parser anhand des Penn Treebank (PTB) und des Chinese Treebank (CTB). Auf PTB übertrifft er bestehende Parser, die ausschließlich mit Constituency-Bäumen trainiert wurden; zudem erzielt er eine Leistung auf dem Niveau von führenden State-of-the-Art-Parsern, die zusätzliche Trainingsdaten in Form von Dependency-Bäumen nutzen. Auf CTB erreicht unser Parser eine neue State-of-the-Art-Leistung. Der Quellcode ist unter https://github.com/princeton-vl/attach-juxtapose-parser verfügbar.