HyperAIHyperAI

Command Palette

Search for a command to run...

Effizientes Modellieren langer Folgen mit strukturierten Zustandsräumen

Albert Gu; Karan Goel; Christopher Ré

Zusammenfassung

Ein zentrales Ziel der Sequenzmodellierung ist die Entwicklung eines einheitlichen, prinzipiellen Modells, das sequenzielle Daten in verschiedenen Modalitäten und Aufgabenbereichen verarbeiten kann, insbesondere bei langen Abhängigkeiten. Obwohl herkömmliche Modelle wie RNNs, CNNs und Transformer spezialisierte Varianten zur Erfassung langer Abhängigkeiten aufweisen, haben sie Schwierigkeiten, sehr lange Sequenzen von 10000 oder mehr Schritten zu skalieren. Ein vielversprechender neuer Ansatz schlägt vor, Sequenzen durch die Simulation des grundlegenden Zustandsraummodells (SSM) ( x'(t) = Ax(t) + Bu(t), y(t) = Cx(t) + Du(t) ) zu modellieren und zeigt, dass dieses System für geeignete Wahl der Zustandsmatrix ( A ) mathematisch und empirisch langfristige Abhängigkeiten bewältigen kann. Allerdings sind die Rechen- und Speicheranforderungen dieser Methode so hoch, dass sie als allgemeine Lösung für die Sequenzmodellierung nicht praktikabel ist.Wir schlagen das strukturierte Zustandsraumsequenzmodell (S4) vor, das auf einer neuen Parametrisierung des SSM basiert. Wir zeigen, dass es viel effizienter berechnet werden kann als frühere Ansätze, während es ihre theoretischen Stärken beibehält. Unsere Technik besteht darin, ( A ) mit einer niedrigrangigen Korrektur zu konditionieren, was eine stabile Diagonalisierung ermöglicht und das SSM auf die gut untersuchte Berechnung eines Cauchy-Kerns reduziert. S4 erzielt starke empirische Ergebnisse in einer Vielzahl etablierter Benchmarks, einschließlich: (i) 91 % Genauigkeit bei sequentiellen CIFAR-10 ohne Datenaugmentierung oder Nebenverluste, vergleichbar mit einem größeren 2-D ResNet; (ii) erheblicher Verringerung des Leistungsunterschiedes zu Transformers bei Bild- und Sprachgenerierungs-Aufgaben, wobei die Generierung um den Faktor 60 schneller erfolgt; (iii) dem Erreichen des aktuellen Standes der Technik (SoTA) in jeder Aufgabe des Long Range Arena-Benchmarks, einschließlich der Lösung der anspruchsvollen Path-X-Aufgabe der Länge 16k, an der alle bisherigen Ansätze gescheitert sind, während es gleichzeitig so effizient wie alle Konkurrenten ist.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp