HyperAIHyperAI

Command Palette

Search for a command to run...

Einfache Zustandsraum-Schichten für die Sequenzmodellierung

Jimmy T.H. Smith Andrew Warrington Scott W. Linderman

Zusammenfassung

Modelle, die strukturierte Zustandsraum-Sequenzschichten (S4) verwenden, haben eine state-of-the-art-Leistung bei Aufgaben zur Langstrecken-Sequenzmodellierung erzielt. Eine S4-Schicht kombiniert lineare Zustandsraummodelle (SSMs), den HiPPO-Framework und tiefes Lernen, um hohe Leistung zu erreichen. Wir bauen auf dem Entwurf der S4-Schicht auf und stellen eine neue Zustandsraum-Schicht, die S5-Schicht, vor. Während eine S4-Schicht zahlreiche unabhängige Ein-Eingabe-Ein-Ausgabe-Zustandsraummodelle nutzt, verwendet die S5-Schicht ein einziges Mehr-Eingabe-Mehr-Ausgabe-Zustandsraummodell. Wir stellen eine Verbindung zwischen S5 und S4 her und nutzen diese, um die Initialisierung und Parametrisierung für das S5-Modell zu entwickeln. Das Ergebnis ist eine Zustandsraum-Schicht, die effiziente und weit verbreitete parallele Scans nutzen kann, wodurch S5 die rechnerische Effizienz von S4 erreicht, gleichzeitig aber auch state-of-the-art-Leistung bei mehreren Aufgaben zur Langstrecken-Sequenzmodellierung erzielt. S5 erreicht im Durchschnitt 87,4 % auf dem Long Range Arena-Benchmark und 98,5 % bei der anspruchsvollsten Path-X-Aufgabe.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp