Lernen der Vereinfachung durch explizite Kennzeichnung von komplex-vereinfachten Textpaaren

Aktuelle Forschung im Bereich der Textvereinfachung (Text Simplification, TS) ist durch zwei zentrale Probleme behindert: (i) die geringe Verfügbarkeit hochwertiger paralleler Vereinfachungsdaten und (ii) die fehlende explizite Annotation von Vereinfachungsoperationen – wie Löschungen oder Substitutionen – in bestehenden Datensätzen. Obwohl der kürzlich vorgestellte Newsela-Korpus das erste Problem teilweise gelindert hat, müssen Vereinfachungen weiterhin direkt aus parallelen Texten mittels „black-box“-Ansätzen im end-to-end-Modus erlernt werden, anstatt aus expliziten Annotationen zu lernen. Diese oft stark voneinander abweichenden einfach-komplexen Satzpaare führen zu einer hohen Komplexität, die die Generalisierung erschwert. Zudem erschweren end-to-end-Modelle die Interpretierbarkeit dessen, was tatsächlich aus den Daten gelernt wird. Wir schlagen eine Methode vor, die die Aufgabe der Textvereinfachung in ihre Teilprobleme zerlegt. Dazu entwickeln wir eine Möglichkeit, Vereinfachungsoperationen in einem parallelen Korpus automatisch zu identifizieren, und führen einen sequenzbasierten Annotationansatz auf Basis dieser Erkenntnisse ein. Schließlich geben wir Einblicke in die Art der Transformationen, die verschiedene Ansätze modellieren können.