Ein Einheitliches Modell für Extractives und Abstraktives Zusammenfassen unter Verwendung des Inkonsistenzverlusts

Wir schlagen ein vereintes Modell vor, das die Stärken von extraktiven und abstraktiven Zusammenfassungen kombiniert. Einerseits kann ein einfaches extraktives Modell auf Satzebene eine hohe Aufmerksamkeit mit guten ROUGE-Werten erzielen, ist aber weniger lesbar. Andererseits kann ein komplexeres abstraktives Modell dynamische Aufmerksamkeit auf Wortebene erlangen, um einen lesbareren Absatz zu generieren. In unserem Modell wird die Aufmerksamkeit auf Satzebene verwendet, um die Aufmerksamkeit auf Wortebene zu modulieren, sodass Wörter in weniger beachteten Sätzen unwahrscheinlicher generiert werden. Darüber hinaus wird eine neuartige Inkonsistenz-Funktion eingeführt, um die Inkonsistenzen zwischen den beiden Aufmerksamkeitsniveaus zu bestrafen. Durch das end-to-end Training unseres Modells mit der Inkonsistenz-Funktion und den ursprünglichen Verlustfunktionen der extraktiven und abstraktiven Modelle erreichen wir Stand-of-the-Art ROUGE-Werte und sind gleichzeitig die informativste und lesbarste Zusammenfassung im CNN/Daily Mail-Datensatz bei einer fundierten menschlichen Bewertung.