BanditSum: Extraktes Zusammenfassen als kontextabhängiger Bandit

In dieser Arbeit schlagen wir eine neue Methode zur Ausbildung von neuronalen Netzen vor, die es ermöglicht, ein-dokumentäre extraktive Zusammenfassungen ohne heuristisch generierte extraktive Labels zu erstellen. Wir nennen unseren Ansatz BanditSum, da er das Problem der extraktiven Zusammenfassung als kontextabhängiges Bandit (CB) Problem behandelt. Dabei erhält das Modell ein Dokument, das zusammengefasst werden soll (der Kontext), und wählt eine Sequenz von Sätzen aus, die in die Zusammenfassung aufgenommen werden sollen (die Aktion). Ein Policy-Gradienten-Reinforcement-Learning-Algorithmus wird verwendet, um das Modell auszubilden, sodass es Sätzenfolgen auswählt, die den ROUGE-Wert maximieren. Wir führen eine Reihe von Experimenten durch, die zeigen, dass BanditSum ROUGE-Werte erreicht, die besser oder vergleichbar sind mit dem aktuellen Stand der Technik für extraktive Zusammenfassungen und dabei signifikant weniger Aktualisierungsschritte benötigt als konkurrierende Ansätze. Darüber hinaus demonstrieren wir empirisch, dass BanditSum erheblich besser abschneidet als konkurrierende Ansätze, wenn gute Zusammenfassungssätze spät im Quelldokument auftreten.