Textvereinfachung durch Tagging

Edit-basierte Ansätze haben in jüngster Zeit vielversprechende Ergebnisse bei mehreren monolingualen Sequenz-Transduktionsaufgaben erzielt. Im Gegensatz zu herkömmlichen Sequenz-zu-Sequenz-(Seq2Seq)-Modellen, die während der Ausbildung auf parallelen Korpora lernen, Texte von Grund auf zu generieren, haben sich diese Methoden als deutlich effektiver erwiesen, da sie lernen können, schnelle und präzise Transformationen vorzunehmen, wobei sie leistungsstarke vortrainierte Sprachmodelle nutzen. Inspiriert durch diese Ideen präsentieren wir TST, ein einfaches und effizientes System zur Textvereinfachung, das auf der Sequenzmarkierung basiert und vortrainierte Transformer-basierte Encoder nutzt. Unser System setzt nur geringfügige Datenverstärkungen und Anpassungen im Trainings- und Inferenzprozess eines bestehenden Systems ein, wodurch es weniger abhängig von großen Mengen paralleler Trainingsdaten ist, eine höhere Kontrolle über die Ausgaben ermöglicht und schnellere Inferenzgeschwindigkeiten erzielt. Unser bestes Modell erreicht nahezu state-of-the-art-Leistungen auf Benchmark-Testdatensätzen für diese Aufgabe. Da es vollständig nicht-autoregressiv ist, erreicht es eine Inferenzgeschwindigkeit, die um mehr als das 11-Fache schneller ist als die des derzeitigen state-of-the-art-Systems zur Textvereinfachung.