HyperAIHyperAI

Command Palette

Search for a command to run...

Zusammenfassung langer Dokumente mit top-down und bottom-up Inferenz

Bo Pang Erik Nijkamp Wojciech Kryściński Silvio Savarese Yingbo Zhou Caiming Xiong

Zusammenfassung

Die Textzusammenfassung zielt darauf ab, lange Dokumente zu verdichten, während wichtige Informationen beibehalten werden. Entscheidend für den Erfolg eines Zusammenfassungsmodells ist die genaue Inferenz der latenten Darstellungen von Wörtern oder Tokens im Quelldokument. Die meisten aktuellen Modelle ermitteln diese latenten Darstellungen mittels eines Transformer-Encoders, der rein bottom-up arbeitet. Zudem stoßen selbst-Attention-basierte Inferenzmodelle auf das Problem einer quadratischen Komplexität bezüglich der Sequenzlänge. Wir schlagen einen prinzipienbasierten Inferenzrahmen vor, um die Zusammenfassungsmodelle hinsichtlich dieser beiden Aspekte zu verbessern. Unser Rahmenmodell geht von einer hierarchischen latenten Struktur eines Dokuments aus, bei der die oberste Ebene die langreichweitigen Abhängigkeiten auf einer groberen Zeitskala erfasst, während die unterste Token-Ebene die Feinheiten bewahrt. Kritisch ist, dass diese hierarchische Struktur es ermöglicht, die Token-Darstellungen sowohl bottom-up als auch top-down zu aktualisieren. Im bottom-up Durchlauf werden die Token-Darstellungen mittels lokaler Self-Attention inferiert, um deren Effizienz auszunutzen. Anschließend erfolgt eine top-down Korrektur, um den Tokens zu ermöglichen, langreichweitige Abhängigkeiten zu erfassen. Wir belegen die Wirksamkeit des vorgeschlagenen Rahmens an einer Vielzahl von Zusammenfassungsdatensätzen, darunter narrative, conversationelle, wissenschaftliche Dokumente und Nachrichten. Unser Modell erreicht (1) konkurrenzfähige oder bessere Leistung bei kurzen Dokumenten mit höherer Speicher- und Rechen-Effizienz im Vergleich zu vollständigen Attention-Transformern und (2) state-of-the-art Ergebnisse bei einer breiten Palette von Benchmarks für lange Dokumente, im Vergleich zu jüngeren effizienten Transformern. Zudem zeigen wir, dass unser Modell ein gesamtes Buch zusammenfassen kann und dabei eine konkurrenzfähige Leistung erzielt, wobei nur 0,27 % der Parameter (464 M gegenüber 175 B) und deutlich weniger Trainingsdaten benötigt werden im Vergleich zu einem kürzlich vorgestellten GPT-3-basierten Modell. Diese Ergebnisse belegen die allgemeine Anwendbarkeit und Vorteile des vorgeschlagenen Rahmens.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
Zusammenfassung langer Dokumente mit top-down und bottom-up Inferenz | Paper | HyperAI