Lesen wie HER: Extraktive Zusammenfassung inspiriert durch menschliches Lesen

In dieser Arbeit untersuchen wir erneut das Problem der extraktiven Textzusammenfassung für lange Dokumente. Wir beobachten, dass der menschliche Prozess der Zusammenfassung in zwei Phasen unterteilt werden kann: 1) eine erste, grobe Lesephase zur Identifizierung von Stichpunkten und 2) eine anschließende, sorgfältige Lesephase zur Auswahl entscheidender Sätze zur Bildung der Zusammenfassung. Indem wir diesen zweistufigen Prozess nachahmen, schlagen wir einen neuen Ansatz für die extraktive Zusammenfassung vor. Wir formulieren das Problem als kontextuelle Banditen-Aufgabe und lösen es mittels Policy Gradient. Zur Kodierung der Hauptinhalte von Absätzen in der groben Lesephase verwenden wir ein konvolutionelles neuronales Netzwerk, während für die sorgfältige Lesephase eine Entscheidungsstrategie mit einer angepassten Beendigungsmechanik eingesetzt wird. Experimente auf den Datensätzen CNN und DailyMail zeigen, dass unser vorgeschlagener Ansatz hochwertige Zusammenfassungen mit variabler Länge liefern kann und die derzeit besten extraktiven Methoden hinsichtlich der ROUGE-Metriken erheblich übertrifft.