HyperAIHyperAI
il y a 9 jours

Qualité du Transformer en temps linéaire

Weizhe Hua, Zihang Dai, Hanxiao Liu, Quoc V. Le
Qualité du Transformer en temps linéaire
Résumé

Nous reprenons l'analyse des choix architecturaux des Transformers, et proposons des méthodes visant à surmonter leurs limites dans la gestion des séquences longues. Tout d'abord, nous introduisons une couche simple appelée unité d'attention à portes, qui permet d'utiliser une attention à un seul head plus faible avec une perte de qualité minimale. Nous proposons ensuite une méthode d'approximation linéaire complémentaire à cette nouvelle couche, qui est compatible avec les accélérateurs matériels et offre une qualité très compétitive. Le modèle résultant, nommé FLASH, atteint un perplexité équivalente à celle des Transformers améliorés, tant pour des longueurs de contexte courtes (512) que longues (8K), tout en offrant des accélérations d'apprentissage allant jusqu'à 4,9× sur Wiki-40B et 12,1× sur PG-19 pour le modèle de langage auto-régressif, ainsi que 4,8× sur C4 pour le modèle de langage masqué.

Qualité du Transformer en temps linéaire | Articles de recherche récents | HyperAI