Neuronales CRF-Modell für die Satzalignment in der Textvereinfachung

Der Erfolg eines Textvereinfachungssystems hängt maßgeblich von der Qualität und Menge an komplex-einfach-Satzpaaren in der Trainingskorpus ab, die durch die Ausrichtung von Sätzen zwischen parallelen Artikeln extrahiert werden. Um die Qualität der Satzausrichtung zu bewerten und zu verbessern, erstellen wir zwei manuell annotierte, satzausgerichtete Datensätze aus zwei häufig verwendeten Textvereinfachungskorpora, Newsela und Wikipedia. Wir stellen ein neuartiges neuronales CRF-Ausrichtungsmodell vor, das nicht nur die sequenzielle Struktur der Sätze in parallelen Dokumenten nutzt, sondern auch ein neuronales Satzpaar-Modell zur Erfassung der semantischen Ähnlichkeit einsetzt. Experimente zeigen, dass unser vorgeschlagenes Verfahren alle vorherigen Ansätze beim monolingualen Satzausrichtungsaufgaben um mehr als 5 Punkte im F1-Score übertrifft. Wir wenden unseren CRF-Ausrichter an, um zwei neue Textvereinfachungs-Datensätze, Newsela-Auto und Wiki-Auto, zu erstellen, die deutlich größer und von besserer Qualität sind als die bisher verfügbaren Datensätze. Ein auf unseren Datensätzen trainiertes Transformer-basiertes Seq2Seq-Modell erreicht in sowohl automatisierten als auch menschlichen Bewertungen eine neue State-of-the-Art-Leistung für die Textvereinfachung.