Zur extraktiven und abstraktiven neuronalen Dokumentzusammenfassung mit Transformer-Sprachmodellen

Wir präsentieren eine Methode zur Erzeugung abstraktiver Zusammenfassungen von langen Dokumenten, die mehrere tausend Wörter überschreiten, mithilfe neuronaler abstraktiver Zusammenfassung. Vor der Generierung einer Zusammenfassung führen wir einen einfachen extraktiven Schritt durch, der dann dazu dient, das Transformer-Sprachmodell auf relevante Informationen zu konditionieren, bevor es mit der Erzeugung der Zusammenfassung betraut wird. Wir zeigen, dass dieser extraktive Schritt die Ergebnisse der Zusammenfassung erheblich verbessert. Zudem zeigen wir, dass dieser Ansatz gegenüber vorhergehenden Arbeiten, die eine Copy-Mechanismus verwenden, abstraktere Zusammenfassungen erzeugt, während gleichzeitig höhere Rouge-Scores erreicht werden. Hinweis: Der obige Abstract wurde nicht von den Autoren verfasst, sondern von einem der in diesem Paper vorgestellten Modelle generiert.