Shortformer : Une meilleure modélisation linguistique grâce à des entrées plus courtes

L’augmentation de la longueur d’entrée a été un moteur du progrès dans les modèles linguistiques basés sur les transformers. Nous identifions des conditions dans lesquelles des entrées plus courtes ne sont pas préjudiciables, et obtenons des améliorations en perplexité et en efficacité grâce à deux nouvelles méthodes visant à réduire la longueur d’entrée. Premièrement, nous montrons qu’un entraînement initial du modèle sur des sous-séquences courtes, avant de passer à des séquences plus longues, réduit à la fois le temps total d’entraînement et, de manière surprenante, améliore significativement la perplexité. Deuxièmement, nous démontrons comment améliorer l’efficacité des méthodes récurrentes dans les transformers, qui permettent aux modèles de s’appuyer sur les tokens précédemment traités lors de la génération de séquences dépassant la longueur maximale que le transformer peut traiter en une seule fois. Les méthodes existantes nécessitent des embeddings de position relative coûteux en calcul ; nous proposons une alternative simple consistant à ajouter des embeddings de position absolue aux requêtes et aux clés, plutôt qu’aux embeddings des mots, ce qui produit des résultats supérieurs de manière plus efficace. Nous montrons également que ces modèles récurrents bénéficient eux aussi de longueurs d’entrée plus courtes. L’association de ces techniques accélère l’entraînement d’un facteur 1,65, réduit la consommation de mémoire et améliore substantiellement la perplexité sur WikiText-103, sans ajouter de paramètres.