HyperAIHyperAI
vor 11 Tagen

Lernen der Vereinfachung durch explizite Kennzeichnung von komplex-vereinfachten Textpaaren

{Carolina Scarton, o, Fern Alva-Manchego, Lucia Specia, Joachim Bingel, Gustavo Paetzold}
Lernen der Vereinfachung durch explizite Kennzeichnung von komplex-vereinfachten Textpaaren
Abstract

Aktuelle Forschung im Bereich der Textvereinfachung (Text Simplification, TS) ist durch zwei zentrale Probleme behindert: (i) die geringe Verfügbarkeit hochwertiger paralleler Vereinfachungsdaten und (ii) die fehlende explizite Annotation von Vereinfachungsoperationen – wie Löschungen oder Substitutionen – in bestehenden Datensätzen. Obwohl der kürzlich vorgestellte Newsela-Korpus das erste Problem teilweise gelindert hat, müssen Vereinfachungen weiterhin direkt aus parallelen Texten mittels „black-box“-Ansätzen im end-to-end-Modus erlernt werden, anstatt aus expliziten Annotationen zu lernen. Diese oft stark voneinander abweichenden einfach-komplexen Satzpaare führen zu einer hohen Komplexität, die die Generalisierung erschwert. Zudem erschweren end-to-end-Modelle die Interpretierbarkeit dessen, was tatsächlich aus den Daten gelernt wird. Wir schlagen eine Methode vor, die die Aufgabe der Textvereinfachung in ihre Teilprobleme zerlegt. Dazu entwickeln wir eine Möglichkeit, Vereinfachungsoperationen in einem parallelen Korpus automatisch zu identifizieren, und führen einen sequenzbasierten Annotationansatz auf Basis dieser Erkenntnisse ein. Schließlich geben wir Einblicke in die Art der Transformationen, die verschiedene Ansätze modellieren können.

Lernen der Vereinfachung durch explizite Kennzeichnung von komplex-vereinfachten Textpaaren | Neueste Forschungsarbeiten | HyperAI