vor 2 Monaten

ChuLo: Chunk-Level Key Information Representation für die Verarbeitung langer Dokumente

Li, Yan ; Han, Soyeon Caren ; Dai, Yue ; Cao, Feiqi

Abstract

Transformer-basierte Modelle haben in verschiedenen Aufgaben der Natürlichen Sprachverarbeitung (NLP) bemerkenswerten Erfolg erzielt, jedoch sind ihre Fähigkeiten zur Verarbeitung langer Dokumente durch rechnerische Einschränkungen begrenzt. Traditionelle Ansätze wie das Kürzen von Eingaben, die Verwendung spärlicher Selbst-Aufmerksamkeit und das Chunking versuchen, diese Probleme zu mildern, führen aber oft zu Informationsverlust und behindern die Fähigkeit des Modells, langfristige Abhängigkeiten zu erfassen. In dieser Arbeit stellen wir ChuLo vor, eine neuartige Methode zur Chunk-Darstellung für das Verstehen langer Dokumente, die diese Einschränkungen adressiert. Unser ChuLo gruppiert Eingabetoken mittels unüberwachter Schlüsselwortextraktion, wobei es auf semantisch wichtige Schlüsselwortbasierte Chunks abzielt, um den Kerninhalt des Dokuments beizubehalten und gleichzeitig die Eingabelänge zu reduzieren. Dieser Ansatz minimiert den Informationsverlust und verbessert die Effizienz von Transformer-basierten Modellen. Die Erhaltung aller Token bei der Verarbeitung langer Dokumente, insbesondere bei Token-Klassifikationsaufgaben, ist wichtig, um sicherzustellen, dass feine Annotationen, die auf dem gesamten Sequenzkontext basieren, nicht verloren gehen. Wir evaluieren unsere Methode an mehreren langen Dokumentklassifikationsaufgaben sowie an langen Dokumenttoken-Klassifikationsaufgaben und demonstrieren ihre Effektivität durch umfassende qualitative und quantitative Analysen. Unsere Implementierung ist unter https://github.com/adlnlp/Chulo als Open Source verfügbar.