HyperAIHyperAI
vor 15 Tagen

Einfache Zustandsraum-Schichten für die Sequenzmodellierung

Jimmy T.H. Smith, Andrew Warrington, Scott W. Linderman
Einfache Zustandsraum-Schichten für die Sequenzmodellierung
Abstract

Modelle, die strukturierte Zustandsraum-Sequenzschichten (S4) verwenden, haben eine state-of-the-art-Leistung bei Aufgaben zur Langstrecken-Sequenzmodellierung erzielt. Eine S4-Schicht kombiniert lineare Zustandsraummodelle (SSMs), den HiPPO-Framework und tiefes Lernen, um hohe Leistung zu erreichen. Wir bauen auf dem Entwurf der S4-Schicht auf und stellen eine neue Zustandsraum-Schicht, die S5-Schicht, vor. Während eine S4-Schicht zahlreiche unabhängige Ein-Eingabe-Ein-Ausgabe-Zustandsraummodelle nutzt, verwendet die S5-Schicht ein einziges Mehr-Eingabe-Mehr-Ausgabe-Zustandsraummodell. Wir stellen eine Verbindung zwischen S5 und S4 her und nutzen diese, um die Initialisierung und Parametrisierung für das S5-Modell zu entwickeln. Das Ergebnis ist eine Zustandsraum-Schicht, die effiziente und weit verbreitete parallele Scans nutzen kann, wodurch S5 die rechnerische Effizienz von S4 erreicht, gleichzeitig aber auch state-of-the-art-Leistung bei mehreren Aufgaben zur Langstrecken-Sequenzmodellierung erzielt. S5 erreicht im Durchschnitt 87,4 % auf dem Long Range Arena-Benchmark und 98,5 % bei der anspruchsvollsten Path-X-Aufgabe.