Multi-News: Ein großes Datensatz für die mehrdokumentenbasierte Zusammenfassung und ein abstrakt-hierarchisches Modell

Die automatische Generierung von Zusammenfassungen aus mehreren Nachrichtenartikeln ist ein wertvolles Werkzeug, da die Anzahl der Online-Publikationen rasch zunimmt. Systeme zur Einzeldokumentenzusammenfassung (Single Document Summarization, SDS) haben von Fortschritten im Bereich der neuronalen Encoder-Decoder-Modelle profitiert, dank der Verfügbarkeit großer Datensätze. Die Mehrdokumentenzusammenfassung (Multi-Document Summarization, MDS) von Nachrichtenartikeln war jedoch auf Datensätze mit nur wenigen hundert Beispielen begrenzt. In dieser Arbeit stellen wir Multi-News vor, den ersten großen MDS-Nachrichtendatensatz. Zudem schlagen wir ein End-to-End-Modell vor, das ein traditionelles extraktives Zusammenfassungsmodell mit einem standardmäßigen SDS-Modell kombiniert und wettbewerbsfähige Ergebnisse auf MDS-Datensätzen erzielt. Wir evaluieren verschiedene Methoden anhand des Multi-News-Datensatzes und veröffentlichen unsere Daten und Code in der Hoffnung, dass diese Arbeit Fortschritte in der Mehrdokumentenzusammenfassung fördern wird.