il y a 9 jours

Longformer : Le Transformer pour documents longs

Iz Beltagy, Matthew E. Peters, Arman Cohan

Résumé

Les modèles fondés sur les transformateurs sont incapables de traiter des séquences longues en raison de leur opération d’attention auto, qui croît de manière quadratique en fonction de la longueur de la séquence. Pour remédier à cette limitation, nous introduisons le Longformer, un modèle doté d’un mécanisme d’attention qui évolue de manière linéaire avec la longueur de la séquence, permettant ainsi un traitement aisé de documents comprenant des milliers de tokens ou plus. Le mécanisme d’attention du Longformer est une solution directement interchangeable par rapport à l’attention auto standard, et combine une attention locale à fenêtre glissante avec une attention globale motivée par la tâche. En suivant les travaux antérieurs sur les transformateurs à séquences longues, nous évaluons le Longformer sur un modèle de langage au niveau des caractères et obtenons des résultats de pointe sur les jeux de données text8 et enwik8. Contrairement à la plupart des travaux antérieurs, nous préentraînons également le Longformer et le fine-tunons sur diverses tâches en aval. Notre modèle préentraîné dépasse de manière constante RoBERTa sur les tâches impliquant des documents longs, et établit de nouveaux records sur WikiHop et TriviaQA. Enfin, nous introduisons le Longformer-Encoder-Decoder (LED), une variante du Longformer conçue pour soutenir les tâches de génération séquentielle à longue portée, et démontrons son efficacité sur le jeu de données de résumé arXiv.