DMRST: Ein gemeinsames Framework für die dokumentbasierte multilinguale RST-Diskurssegmentierung und -analyse

Die Textdiskursanalyse spielt eine wichtige Rolle bei der Verständnis der Informationsflussrichtung und der argumentativen Struktur in natürlicher Sprache, was sie für nachgelagerte Aufgaben vorteilhaft macht. Obwohl frühere Arbeiten die Leistungsfähigkeit der RST-Diskursanalyse erheblich verbessert haben, sind diese Ergebnisse nicht unmittelbar auf praktische Anwendungsfälle übertragbar: (1) Die EDU-Segmentierung ist in den meisten bestehenden Baumparsingsystemen nicht integriert, wodurch es schwierig ist, solche Modelle auf neu eintreffende Daten anzuwenden. (2) Die meisten Parser können in mehrsprachigen Szenarien nicht verwendet werden, da sie nur in englischer Sprache entwickelt wurden. (3) Parser, die auf ein-domänen-Baumbänken trainiert wurden, verallgemeinern sich nicht gut auf außerdomänen Eingaben. In dieser Arbeit schlagen wir einen dokumentspezifischen mehrsprachigen RST-Diskursparsingrahmen vor, der EDU-Segmentierung und Diskusbaum-Parsing gemeinsam durchführt. Darüber hinaus schlagen wir eine Strategie zur Querübersetzungsaugmentierung vor, um das Framework zu befähigen, mehrsprachiges Parsing zu unterstützen und seine Domänenverallgemeinerung zu verbessern. Experimentelle Ergebnisse zeigen, dass unser Modell in allen Teilaufgaben den aktuellen Stand der Technik bei dokumentspezifischem mehrsprachigem RST-Parsing erreicht.