HyperAIHyperAI

Command Palette

Search for a command to run...

Longformer : Le Transformer pour documents longs

Iz Beltagy Matthew E. Peters Arman Cohan

Résumé

Les modèles fondés sur les transformateurs sont incapables de traiter des séquences longues en raison de leur opération d’attention auto, qui croît de manière quadratique en fonction de la longueur de la séquence. Pour remédier à cette limitation, nous introduisons le Longformer, un modèle doté d’un mécanisme d’attention qui évolue de manière linéaire avec la longueur de la séquence, permettant ainsi un traitement aisé de documents comprenant des milliers de tokens ou plus. Le mécanisme d’attention du Longformer est une solution directement interchangeable par rapport à l’attention auto standard, et combine une attention locale à fenêtre glissante avec une attention globale motivée par la tâche. En suivant les travaux antérieurs sur les transformateurs à séquences longues, nous évaluons le Longformer sur un modèle de langage au niveau des caractères et obtenons des résultats de pointe sur les jeux de données text8 et enwik8. Contrairement à la plupart des travaux antérieurs, nous préentraînons également le Longformer et le fine-tunons sur diverses tâches en aval. Notre modèle préentraîné dépasse de manière constante RoBERTa sur les tâches impliquant des documents longs, et établit de nouveaux records sur WikiHop et TriviaQA. Enfin, nous introduisons le Longformer-Encoder-Decoder (LED), une variante du Longformer conçue pour soutenir les tâches de génération séquentielle à longue portée, et démontrons son efficacité sur le jeu de données de résumé arXiv.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp