Syntaktisches Vorwärts-Aufmerksamkeitsnetzwerk für Satzkompression

Satzkompression ist die Aufgabe, einen langen Satz durch das Entfernen redundanter Wörter in einen kürzeren zu komprimieren. In sequenzbasierten Modellen (Seq2Seq) entscheidet der Decoder einseitig über das Beibehalten oder Löschen von Wörtern. Daher kann er in der Regel nicht explizit die Beziehungen zwischen bereits dekodierten Wörtern und noch nicht gesehenen Wörtern erfassen, die in zukünftigen Zeitschritten dekodiert werden sollen. Um die Erzeugung grammatikalisch fehlerhafter Sätze zu vermeiden, lässt der Decoder manchmal wichtige Wörter bei der Kompression von Sätzen weg. Um dieses Problem zu lösen, schlagen wir ein neues Seq2Seq-Modell vor: das syntaktische Look-Ahead-Attention-Netzwerk (SLAHAN). Dieses Netzwerk kann informativere Zusammenfassungen erzeugen, indem es während des Decodings sowohl abhängige Eltern- als auch Kindwörter explizit verfolgt und wichtige Wörter erfasst, die in zukünftigen Zeitschritten dekodiert werden sollen.Die Ergebnisse der automatischen Bewertung am Google-Satzkompressionsdatensatz zeigten, dass SLAHAN die besten Scores für den token-basierten F1-Wert, ROUGE-1, ROUGE-2 und ROUGE-L erreichte, nämlich 85,5 %, 79,3 %, 71,3 % und 79,1 % jeweils. SLAHAN verbesserte außerdem die Zusammenfassungsleistung bei längeren Sätzen. Darüber hinaus zeigte eine menschliche Bewertung, dass SLAHAN die Informationsdichte erhöhte ohne Lesbarkeit einzubüßen.