il y a 2 mois

ChuLo : Représentation de l'Information Clé au Niveau des Chunks pour le Traitement des Documents Longs

Li, Yan ; Han, Soyeon Caren ; Dai, Yue ; Cao, Feiqi

Résumé

Les modèles basés sur les Transformers ont connu un succès remarquable dans diverses tâches de Traitement du Langage Naturel (NLP), mais leur capacité à traiter des documents longs est limitée par des contraintes computationnelles. Les approches traditionnelles, telles que la troncature des entrées, l'auto-attention parcimonieuse et le découpage en segments, tentent d'atténuer ces problèmes, mais elles entraînent souvent une perte d'information et nuisent à la capacité du modèle à capturer des dépendances à longue portée. Dans cet article, nous présentons ChuLo, une nouvelle méthode de représentation par segments pour la compréhension des documents longs qui répond à ces limitations. Notre méthode ChuLo regroupe les jetons d'entrée en utilisant l'extraction non supervisée de termes clés, mettant l'accent sur les segments basés sur des termes clés sémantiquement importants afin de conserver le contenu essentiel du document tout en réduisant sa longueur. Cette approche minimise la perte d'information et améliore l'efficacité des modèles basés sur les Transformers. Conserver tous les jetons dans la compréhension des documents longs, en particulier pour les tâches de classification de jetons, est crucial pour garantir que les annotations fines, qui dépendent du contexte de toute la séquence, ne soient pas perdues. Nous évaluons notre méthode sur plusieurs tâches de classification de documents longs et de classification de jetons dans des documents longs, démontrant son efficacité grâce à une analyse qualitative et quantitative exhaustive. Notre implémentation est open-source et disponible sur https://github.com/adlnlp/Chulo.