HyperAIHyperAI
vor 11 Tagen

Offene Domänen-Mehr-Dokument-Zusammenfassung: Eine umfassende Studie zur Modellbrüchigkeit unter Retrieval

John Giorgi, Luca Soldaini, Bo Wang, Gary Bader, Kyle Lo, Lucy Lu Wang, Arman Cohan
Offene Domänen-Mehr-Dokument-Zusammenfassung: Eine umfassende Studie zur Modellbrüchigkeit unter Retrieval
Abstract

Die mehrdokumentenbasierte Zusammenfassung (Multi-document Summarization, MDS) geht davon aus, dass eine Menge thematisch verwandter Dokumente als Eingabe vorliegt. In der Praxis ist diese Dokumentensammlung jedoch nicht immer direkt verfügbar; sie müsste vielmehr auf Basis einer Informationsbedarfssituation – also einer Frage oder einer Themenformulierung – abgerufen werden, was wir als „offene Domäne“ (open-domain) bezeichnen. Wir untersuchen diese anspruchsvollere Aufgabenstellung, indem wir die Aufgabe formalisieren und sie mittels bestehender Datensätze, Retrieval-Systeme und Zusammenfassungsmodelle aufbauen (bootstrapping). Durch umfassende automatisierte und menschliche Evaluation zeigen wir: (1) Zustand-des-Kunst-Zusammenfassungsmodelle leiden unter erheblichen Leistungseinbußen, wenn sie auf die offene Domäne MDS angewendet werden; (2) eine zusätzliche Anpassung der Modelle im offenen Domänen-Setting kann diese Empfindlichkeit gegenüber unvollständigem oder fehlerhaftem Retrieval verringern; (3) Zusammenfassungsmodelle sind gegenüber der Wiederholung von Dokumenten und der Reihenfolge der abgerufenen Dokumente unempfindlich, jedoch hochsensibel gegenüber anderen Fehlern, insbesondere dem Abrufen irrelevanten Materials. Aufgrund unserer Ergebnisse geben wir praktische Leitlinien für zukünftige Forschung in der offenen Domäne MDS an, beispielsweise hinsichtlich der optimalen Anzahl abgerufener Dokumente zur Zusammenfassung. Unsere Befunde legen nahe, dass für weitere Fortschritte in diesem Bereich neue Retrieval- und Zusammenfassungsmethoden sowie annotierte Ressourcen für das Training und die Evaluation erforderlich sind.