Alexandria: Eine umfangreiche Ressource für multilinguale Buchzusammenfassung

In den letzten Jahren konzentrierte sich die Forschung im Bereich der Textzusammenfassung hauptsächlich auf den Nachrichtenbereich, in dem Texte typischerweise kurz sind und starke Layout-Charakteristika aufweisen. Die Aufgabe der vollständigen Buchzusammenfassung stellt zusätzliche Herausforderungen dar, die mit den derzeit verfügbaren Ressourcen aufgrund ihrer begrenzten Größe und der ausschließlichen Verfügbarkeit auf Englisch nur schwer zu bewältigen sind. Um diese Einschränkungen zu überwinden, stellen wir „Echoes from Alexandria“ – kurz: „Echoes“ – eine große, mehrsprachige Ressource für die Buchzusammenfassung vor. Echoes umfasst drei neuartige Datensätze: i) Echo-Wiki für mehrsprachige Buchzusammenfassung, ii) Echo-XSum für extrem komprimierende mehrsprachige Buchzusammenfassung und iii) Echo-FairySum für extraktive Buchzusammenfassung. Sofern uns bekannt ist, ist Echoes mit Tausenden von Büchern und Zusammenfassungen die bisher größte Ressource und zugleich die erste mehrsprachige, die fünf Sprachen und 25 Sprachpaare umfasst. Zusätzlich zu Echoes präsentieren wir eine neue Baseline-Methode, die extraktiv-then-abstraktiv vorgeht, und stützen uns auf unsere experimentellen Ergebnisse sowie eine manuelle Analyse der generierten Zusammenfassungen, um zu argumentieren, dass diese Herangehensweise für die Buchzusammenfassung besser geeignet ist als rein abstraktive Ansätze. Wir stellen unsere Ressource und Software unter https://github.com/Babelscape/echoes-from-alexandria zur Verfügung, um innovative Forschung im Bereich der mehrsprachigen Buchzusammenfassung zu fördern.