Lange Sequenzen mit dünn besetzten Transformer-Modellen generieren

Transformers sind leistungsstarke sequenzielle Modelle, die jedoch eine Zeit- und Speicheranforderung erfordern, die quadratisch mit der Sequenzlänge wächst. In dieser Arbeit führen wir dünnbesetzte Faktorisierungen der Aufmerksamkeitsmatrix ein, die diese Anforderungen auf (O(n \sqrt{n})) reduzieren. Zudem stellen wir a) eine Variation der Architektur und Initialisierung vor, um tiefer gehende Netze zu trainieren, b) die Wiederberechnung von Aufmerksamkeitsmatrizen zur Speichersparnis, und c) schnelle Aufmerksamkeitskerne für das Training ein. Wir bezeichnen Netzwerke mit diesen Änderungen als Sparse Transformers (Dünnbesetzte Transformer) und zeigen, dass sie Sequenzen mit Tausenden von Zeitschritten unter Verwendung von Hunderten von Schichten modellieren können. Mit derselben Architektur modellieren wir Bilder, Audio und Text direkt aus Rohbytes und erreichen einen neuen Stand der Technik bei der Dichtemodellierung von Enwik8, CIFAR-10 und ImageNet-64. Wir generieren unbedingte Stichproben, die globale Kohärenz und große Vielfalt demonstrieren, und zeigen prinzipiell, dass es möglich ist, Selbst-Aufmerksamkeit zur Modellierung von Sequenzen mit einer Länge von einer Million oder mehr Zeitschritten zu verwenden.