Ein zweistufiges Parsing-Verfahren für die textebene Diskursanalyse

Bisherige Arbeiten haben transitionsbasierte Algorithmen eingeführt, um eine einheitliche Architektur zur Analyse rhetorischer Strukturen (einschließlich Span, Nuclearität und Relation) zu schaffen, erreichten jedoch keine zufriedenstellende Leistung. In dieser Arbeit argumentieren wir, dass transitionsbasierte Modelle aufgrund von Daten-Spärlichkeit besonders geeignet sind, den nackten Diskursbaum (d. h. die Identifikation von Span und Nuclearität) zu parsen. Gleichzeitig betonen wir, dass die Relationen-Kennzeichnung von der Struktur des nackten Baums profitieren kann und sorgfältig behandelt werden sollte, wobei drei Arten von Relationen berücksichtigt werden müssen: innerhalb-satz-orientierte, über-satz-orientierte und über-absatz-orientierte Relationen. Daher entwickeln wir eine pipelined, zweistufige Parsing-Methode zur Generierung eines RST-Baums aus Text. Experimentelle Ergebnisse zeigen, dass unsere Methode eine state-of-the-art-Leistung erzielt, insbesondere bei der Identifikation von Span und Nuclearität.