Effizientes Modellieren langer Folgen mit strukturierten Zustandsräumen

Ein zentrales Ziel der Sequenzmodellierung ist die Entwicklung eines einheitlichen, prinzipiellen Modells, das sequenzielle Daten in verschiedenen Modalitäten und Aufgabenbereichen verarbeiten kann, insbesondere bei langen Abhängigkeiten. Obwohl herkömmliche Modelle wie RNNs, CNNs und Transformer spezialisierte Varianten zur Erfassung langer Abhängigkeiten aufweisen, haben sie Schwierigkeiten, sehr lange Sequenzen von 10000 oder mehr Schritten zu skalieren. Ein vielversprechender neuer Ansatz schlägt vor, Sequenzen durch die Simulation des grundlegenden Zustandsraummodells (SSM) ( x'(t) = Ax(t) + Bu(t), y(t) = Cx(t) + Du(t) ) zu modellieren und zeigt, dass dieses System für geeignete Wahl der Zustandsmatrix ( A ) mathematisch und empirisch langfristige Abhängigkeiten bewältigen kann. Allerdings sind die Rechen- und Speicheranforderungen dieser Methode so hoch, dass sie als allgemeine Lösung für die Sequenzmodellierung nicht praktikabel ist.Wir schlagen das strukturierte Zustandsraumsequenzmodell (S4) vor, das auf einer neuen Parametrisierung des SSM basiert. Wir zeigen, dass es viel effizienter berechnet werden kann als frühere Ansätze, während es ihre theoretischen Stärken beibehält. Unsere Technik besteht darin, ( A ) mit einer niedrigrangigen Korrektur zu konditionieren, was eine stabile Diagonalisierung ermöglicht und das SSM auf die gut untersuchte Berechnung eines Cauchy-Kerns reduziert. S4 erzielt starke empirische Ergebnisse in einer Vielzahl etablierter Benchmarks, einschließlich: (i) 91 % Genauigkeit bei sequentiellen CIFAR-10 ohne Datenaugmentierung oder Nebenverluste, vergleichbar mit einem größeren 2-D ResNet; (ii) erheblicher Verringerung des Leistungsunterschiedes zu Transformers bei Bild- und Sprachgenerierungs-Aufgaben, wobei die Generierung um den Faktor 60 schneller erfolgt; (iii) dem Erreichen des aktuellen Standes der Technik (SoTA) in jeder Aufgabe des Long Range Arena-Benchmarks, einschließlich der Lösung der anspruchsvollen Path-X-Aufgabe der Länge 16k, an der alle bisherigen Ansätze gescheitert sind, während es gleichzeitig so effizient wie alle Konkurrenten ist.