Zusammenfassung langer Dokumente mit top-down und bottom-up Inferenz

Die Textzusammenfassung zielt darauf ab, lange Dokumente zu verdichten, während wichtige Informationen beibehalten werden. Entscheidend für den Erfolg eines Zusammenfassungsmodells ist die genaue Inferenz der latenten Darstellungen von Wörtern oder Tokens im Quelldokument. Die meisten aktuellen Modelle ermitteln diese latenten Darstellungen mittels eines Transformer-Encoders, der rein bottom-up arbeitet. Zudem stoßen selbst-Attention-basierte Inferenzmodelle auf das Problem einer quadratischen Komplexität bezüglich der Sequenzlänge. Wir schlagen einen prinzipienbasierten Inferenzrahmen vor, um die Zusammenfassungsmodelle hinsichtlich dieser beiden Aspekte zu verbessern. Unser Rahmenmodell geht von einer hierarchischen latenten Struktur eines Dokuments aus, bei der die oberste Ebene die langreichweitigen Abhängigkeiten auf einer groberen Zeitskala erfasst, während die unterste Token-Ebene die Feinheiten bewahrt. Kritisch ist, dass diese hierarchische Struktur es ermöglicht, die Token-Darstellungen sowohl bottom-up als auch top-down zu aktualisieren. Im bottom-up Durchlauf werden die Token-Darstellungen mittels lokaler Self-Attention inferiert, um deren Effizienz auszunutzen. Anschließend erfolgt eine top-down Korrektur, um den Tokens zu ermöglichen, langreichweitige Abhängigkeiten zu erfassen. Wir belegen die Wirksamkeit des vorgeschlagenen Rahmens an einer Vielzahl von Zusammenfassungsdatensätzen, darunter narrative, conversationelle, wissenschaftliche Dokumente und Nachrichten. Unser Modell erreicht (1) konkurrenzfähige oder bessere Leistung bei kurzen Dokumenten mit höherer Speicher- und Rechen-Effizienz im Vergleich zu vollständigen Attention-Transformern und (2) state-of-the-art Ergebnisse bei einer breiten Palette von Benchmarks für lange Dokumente, im Vergleich zu jüngeren effizienten Transformern. Zudem zeigen wir, dass unser Modell ein gesamtes Buch zusammenfassen kann und dabei eine konkurrenzfähige Leistung erzielt, wobei nur 0,27 % der Parameter (464 M gegenüber 175 B) und deutlich weniger Trainingsdaten benötigt werden im Vergleich zu einem kürzlich vorgestellten GPT-3-basierten Modell. Diese Ergebnisse belegen die allgemeine Anwendbarkeit und Vorteile des vorgeschlagenen Rahmens.