HyperAIHyperAI

Command Palette

Search for a command to run...

ChuLo : Représentation de l'Information Clé au Niveau des Chunks pour le Traitement des Documents Longs

Yan Li Soyeon Caren Han* Yue Dai Feiqi Cao

Résumé

Les modèles basés sur les Transformers ont connu un succès remarquable dans diverses tâches de Traitement du Langage Naturel (NLP), mais leur capacité à traiter des documents longs est limitée par des contraintes computationnelles. Les approches traditionnelles, telles que la troncature des entrées, l'auto-attention parcimonieuse et le découpage en segments, tentent d'atténuer ces problèmes, mais elles entraînent souvent une perte d'information et nuisent à la capacité du modèle à capturer des dépendances à longue portée. Dans cet article, nous présentons ChuLo, une nouvelle méthode de représentation par segments pour la compréhension des documents longs qui répond à ces limitations. Notre méthode ChuLo regroupe les jetons d'entrée en utilisant l'extraction non supervisée de termes clés, mettant l'accent sur les segments basés sur des termes clés sémantiquement importants afin de conserver le contenu essentiel du document tout en réduisant sa longueur. Cette approche minimise la perte d'information et améliore l'efficacité des modèles basés sur les Transformers. Conserver tous les jetons dans la compréhension des documents longs, en particulier pour les tâches de classification de jetons, est crucial pour garantir que les annotations fines, qui dépendent du contexte de toute la séquence, ne soient pas perdues. Nous évaluons notre méthode sur plusieurs tâches de classification de documents longs et de classification de jetons dans des documents longs, démontrant son efficacité grâce à une analyse qualitative et quantitative exhaustive. Notre implémentation est open-source et disponible sur https://github.com/adlnlp/Chulo.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp
ChuLo : Représentation de l'Information Clé au Niveau des Chunks pour le Traitement des Documents Longs | Articles | HyperAI