Génération de séquences longues avec des Transformers creux

Les Transformers sont des modèles de séquence puissants, mais ils nécessitent un temps et une mémoire qui augmentent quadratiquement avec la longueur de la séquence. Dans cet article, nous introduisons des factorisations creuses de la matrice d'attention qui réduisent cette complexité à (O(n \sqrt{n})). Nous présentons également : a) une variation de l'architecture et de l'initialisation pour entraîner des réseaux plus profonds, b) le recalcul des matrices d'attention pour économiser de la mémoire, et c) des noyaux d'attention rapides pour l'entraînement. Nous appelons ces réseaux les Sparse Transformers (Transformers creux), et nous montrons qu'ils peuvent modéliser des séquences de plusieurs dizaines de milliers d'étapes temporelles en utilisant des centaines de couches. Nous utilisons la même architecture pour modéliser des images, du son et du texte à partir d'octets bruts, établissant un nouveau niveau de performance pour le modèle de densité d'Enwik8, CIFAR-10 et ImageNet-64. Nous générons des échantillons inconditionnels qui démontrent une cohérence globale et une grande diversité, et nous montrons qu'il est en principe possible d'utiliser l'auto-attention pour modéliser des séquences de longueur d'un million ou plus.