RST-Parsing von Grund auf

Wir stellen eine neue, von oben nach unten gerichtete, end-to-end Formulierung der Dokumentebenen-Diskursanalyse im Rahmen der rhetorischen Strukturtheorie (RST) vor. In dieser Formulierung betrachten wir die Diskursanalyse als eine Reihe von Aufteilungsentscheidungen an Token-Grenzen und verwenden ein seq2seq-Netzwerk, um diese Aufteilungsentscheidungen zu modellieren. Unser Framework ermöglicht es, die Diskursanalyse von Grund auf neu durchzuführen, ohne dass eine Diskursegmentierung als Voraussetzung erforderlich ist; vielmehr ergibt sich die Segmentierung im Verlauf des Parsing-Prozesses. Unser vereinheitlichtes Parsing-Modell verwendet einen Strahlensuche-Algorithmus (beam search), um die beste Baumstruktur durchsuchen eines Raums hochoptimierter Bäume zu decodieren. Durch umfangreiche Experimente mit dem Standard-Englischen RST-Diskursbaumkorpus zeigen wir, dass unser Parser in beiden Bereichen – end-to-end Parsing und Parsing mit goldener Segmentierung – erheblich bessere Ergebnisse als existierende Methoden erzielt. Noch wichtiger ist jedoch, dass dies ohne Verwendung manuell erstellter Merkmale geschieht, was den Parser schneller und leichter anpassbar für neue Sprachen und Domänen macht.