Komplexitätsgewichteter Verlust und vielfältiges Re-Ranking für Satzvereinfachung

Die Satzvereinfachung ist die Aufgabe, Texte so umzuschreiben, dass sie leichter verständlich sind. In jüngster Zeit haben Forschungen sequenzbasierte Modelle (Seq2Seq) auf diese Aufgabe angewendet und sich hauptsächlich auf Verbesserungen während des Trainings durch Verstärkungslernen und Speicheraugmentierung konzentriert. Ein Hauptproblem bei der Anwendung generischer Seq2Seq-Modelle für die Vereinfachung besteht darin, dass diese Modelle neigen, direkt aus dem ursprünglichen Satz zu kopieren, was zu Ausgaben führt, die relativ lang und komplex sind. Unser Ziel ist es, dieses Problem durch den Einsatz von zwei Haupttechniken zu lindern. Erstens integrieren wir die Komplexität von Inhaltswörtern, wie von einem stufenweise trainierten Wörterkomplexitätsmodell vorhergesagt, in unsere Verlustfunktion während des Trainings. Zweitens erzeugen wir zur Testzeit eine große Menge diverser Kandidaten-Vereinfachungen und sortieren diese neu, um Flüssigkeit, Angemessenheit und Einfachheit zu fördern. Hierbei messen wir Einfachheit durch ein neues Modell zur Bestimmung der Satzkomplexität. Diese Erweiterungen ermöglichen es unseren Modellen, wettbewerbsfähig mit den besten Systemen derzeit zu sein und dabei einfachere Sätze zu generieren. Wir berichten über standardisierte automatische und menschliche Evaluationsmetriken.