Qualité du Transformer en temps linéaire

Nous reprenons l'analyse des choix architecturaux des Transformers, et proposons des méthodes visant à surmonter leurs limites dans la gestion des séquences longues. Tout d'abord, nous introduisons une couche simple appelée unité d'attention à portes, qui permet d'utiliser une attention à un seul head plus faible avec une perte de qualité minimale. Nous proposons ensuite une méthode d'approximation linéaire complémentaire à cette nouvelle couche, qui est compatible avec les accélérateurs matériels et offre une qualité très compétitive. Le modèle résultant, nommé FLASH, atteint un perplexité équivalente à celle des Transformers améliorés, tant pour des longueurs de contexte courtes (512) que longues (8K), tout en offrant des accélérations d'apprentissage allant jusqu'à 4,9× sur Wiki-40B et 12,1× sur PG-19 pour le modèle de langage auto-régressif, ainsi que 4,8× sur C4 pour le modèle de langage masqué.