N-äre Bestandteilsbaum-Parsing mit rekursivem semi-Markov-Modell

In diesem Artikel untersuchen wir die Aufgabe der graphbasierten Constituent-Parsing im Szenario, bei dem eine Binarisierung nicht als Vorverarbeitungsschritt durchgeführt wird, wobei ein Constituentenbaum Knoten mit mehr als zwei Kindern enthalten kann. Bisherige graphbasierte Ansätze in diesem Kontext generieren typischerweise verborgene Knoten mit einer Dummy-Bezeichnung innerhalb der n-ären Knoten, um den Baum in einen binären Baum umzuwandeln, um die Vorhersage zu ermöglichen. Der Nachteil dieser Methode liegt darin, dass die verborgenen Knoten die Geschwisterbeziehungen der Kinder eines n-ären Knotens zerstören. Folglich werden die Abhängigkeiten zwischen solchen Geschwisterconstituenten nicht genau modelliert und werden oft ignoriert. Um diesen Nachteil zu beheben, schlagen wir einen neuen graphbasierten Rahmen vor, der als „rekursives semi-Markov-Modell“ bezeichnet wird. Der zentrale Gedanke besteht darin, ein 1-Ordnung-semi-Markov-Modell einzusetzen, um die unmittelbare Folge von Kindern eines Constituenten-Kandidaten vorherzusagen, die dann rekursiv als Kindkandidat für ihren Elternknoten dienen. Auf diese Weise können die Abhängigkeiten zwischen Geschwisterconstituenten durch 1-Ordnung-Übergangsmerkmale beschrieben werden, was die oben genannte Einschränkung überwindet. Experimentelle Ergebnisse zeigen, dass der vorgeschlagene Rahmen F1-Werte von 95,92 % und 92,50 % auf den Datensätzen PTB und CTB 5.1 erzielt. Insbesondere zeigt das rekursive semi-Markov-Modell Vorteile bei der Modellierung von Knoten mit mehr als zwei Kindern, wobei sich die durchschnittliche F1 auf PTB um 0,3–1,1 Punkte und auf CTB 5.1 um 2,3–6,8 Punkte verbessern lässt.