Unüberwachte neuronale Textvereinfachung

Der Artikel stellt einen ersten Versuch zur unüberwachten neuronalen Textvereinfachung vor, der ausschließlich auf nicht gekennzeichneten Textkorpora basiert. Das zentrale Framework besteht aus einem gemeinsamen Encoder und einem Paar von Aufmerksamkeits-Decodern und erlangt Wissen über die Vereinfachung durch diskriminativ-basierte Verlustfunktionen und Denoising. Das Framework wird mit nicht gekennzeichnetem Text, der aus dem en-Wikipedia-Dump gesammelt wurde, trainiert. Unsere Analyse (sowohl quantitativ als auch qualitativ, wobei menschliche Beurteiler involviert waren) anhand öffentlicher Testdaten zeigt, dass das vorgeschlagene Modell die Textvereinfachung sowohl auf lexikaler als auch auf syntaktischer Ebene durchführen kann und dabei den existierenden überwachten Methoden gleichwertig ist. Die Hinzufügung einiger gekennzeichneter Paare verbessert die Leistung des Modells weiter.