Long-Short Transformer: Effiziente Transformers für Sprache und Vision

Transformers haben sowohl in Sprach- als auch in Visueldomänen Erfolg erzielt. Die Skalierung auf lange Sequenzen wie lange Dokumente oder hochauflösende Bilder ist jedoch prohibitiv teuer, da die Selbst-Attention-Mechanismen eine quadratische Zeit- und Speicherkomplexität bezüglich der Länge der Eingabesequenz aufweisen. In diesem Paper stellen wir den Long-Short Transformer (Transformer-LS) vor, einen effizienten Selbst-Attention-Mechanismus zur Modellierung langer Sequenzen mit linearer Komplexität sowohl für Sprach- als auch für visuelle Aufgaben. Er kombiniert eine neuartige Langstrecken-Attention mit dynamischer Projektion zur Modellierung entfernter Korrelationen sowie eine Kurzzeit-Attention zur Erfassung feinkörniger lokaler Korrelationen. Wir schlagen eine Dual-Normalisierungsstrategie vor, um die Skalenunterschiede zwischen den beiden Attention-Mechanismen zu berücksichtigen. Transformer-LS kann sowohl auf autoregressive als auch auf bidirektionale Modelle angewendet werden, ohne zusätzlichen Komplexitätsaufwand. Unser Ansatz übertrifft die derzeitigen State-of-the-Art-Modelle in mehreren Aufgaben aus Sprach- und Visueldomänen, darunter der Long Range Arena Benchmark, autoregressive Sprachmodellierung und ImageNet-Klassifikation. Beispielsweise erreicht Transformer-LS auf enwik8 eine Test-BPC von 0,97, wobei er nur die Hälfte der Parameter im Vergleich zu vorhergehenden Methoden verwendet, schneller ist und auf derselben Hardware Sequenzen bis zu dreimal länger verarbeiten kann als seine vollständig-Attention-Variante. Auf ImageNet erzielt er state-of-the-art Ergebnisse (z. B. ein Modell mittlerer Größe mit 55,8 Mio. Parametern, das ausschließlich auf 224×224 ImageNet-1K trainiert wurde, erreicht eine Top-1-Accuracy von 84,1 %), während es gleichzeitig besser skalierbar für hochauflösende Bilder ist. Der Quellcode und die Modelle sind unter https://github.com/NVIDIA/transformer-ls veröffentlicht.