Transformers sind RNNs: Schnelle autoregressive Transformers mit linearer Aufmerksamkeit

Transformers erzielen beachtliche Leistungen bei mehreren Aufgaben, sind jedoch aufgrund ihrer quadratischen Komplexität bezüglich der Eingabesequenzlänge für sehr lange Sequenzen prohibitiv langsam. Um diese Einschränkung zu überwinden, formulieren wir die Self-Attention als lineares Skalarprodukt von Kernel-Funktionen und nutzen die Assoziativität von Matrixprodukten, um die Komplexität von $\mathcal{O}\left(N^2\right)$ auf $\mathcal{O}\left(N\right)$ zu reduzieren, wobei $N$ die Länge der Sequenz bezeichnet. Wir zeigen, dass diese Formulierung eine iterative Implementierung ermöglicht, die die Autoregressivität von Transformers erheblich beschleunigt und deren Beziehung zu rekurrenten neuronalen Netzen aufzeigt. Unsere linearen Transformers erreichen eine vergleichbare Leistung wie herkömmliche Transformers und sind bei der autoregressiven Vorhersage sehr langer Sequenzen bis zu 4000-mal schneller.