HyperAIHyperAI

Command Palette

Search for a command to run...

ChuLo: Chunk-Level Key Information Representation für die Verarbeitung langer Dokumente

Yan Li Soyeon Caren Han* Yue Dai Feiqi Cao

Zusammenfassung

Transformer-basierte Modelle haben in verschiedenen Aufgaben der Natürlichen Sprachverarbeitung (NLP) bemerkenswerten Erfolg erzielt, jedoch sind ihre Fähigkeiten zur Verarbeitung langer Dokumente durch rechnerische Einschränkungen begrenzt. Traditionelle Ansätze wie das Kürzen von Eingaben, die Verwendung spärlicher Selbst-Aufmerksamkeit und das Chunking versuchen, diese Probleme zu mildern, führen aber oft zu Informationsverlust und behindern die Fähigkeit des Modells, langfristige Abhängigkeiten zu erfassen. In dieser Arbeit stellen wir ChuLo vor, eine neuartige Methode zur Chunk-Darstellung für das Verstehen langer Dokumente, die diese Einschränkungen adressiert. Unser ChuLo gruppiert Eingabetoken mittels unüberwachter Schlüsselwortextraktion, wobei es auf semantisch wichtige Schlüsselwortbasierte Chunks abzielt, um den Kerninhalt des Dokuments beizubehalten und gleichzeitig die Eingabelänge zu reduzieren. Dieser Ansatz minimiert den Informationsverlust und verbessert die Effizienz von Transformer-basierten Modellen. Die Erhaltung aller Token bei der Verarbeitung langer Dokumente, insbesondere bei Token-Klassifikationsaufgaben, ist wichtig, um sicherzustellen, dass feine Annotationen, die auf dem gesamten Sequenzkontext basieren, nicht verloren gehen. Wir evaluieren unsere Methode an mehreren langen Dokumentklassifikationsaufgaben sowie an langen Dokumenttoken-Klassifikationsaufgaben und demonstrieren ihre Effektivität durch umfassende qualitative und quantitative Analysen. Unsere Implementierung ist unter https://github.com/adlnlp/Chulo als Open Source verfügbar.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp