HyperAIHyperAI

Command Palette

Search for a command to run...

Wie man seinen HiPPO schult: Zustandsraummodelle mit verallgemeinerten orthogonalen Basisprojektionen

Albert Gu Isys Johnson Aman Timalsina Atri Rudra Christopher Ré

Zusammenfassung

Lineare zeitinvariante Zustandsraummodelle (SSM) sind ein klassisches Modell aus der Ingenieurwissenschaft und Statistik, das in jüngster Zeit durch das Structured State Space Sequence Model (S4) als äußerst vielversprechend im Bereich des maschinellen Lernens erwiesen hat. Ein zentraler Bestandteil von S4 besteht darin, die Zustandsmatrix des SSM auf eine spezielle Matrix zu initialisieren, die als HiPPO-Matrix bezeichnet wird. Diese Initialisierung erwies sich empirisch als entscheidend für die Fähigkeit von S4, lange Sequenzen zu verarbeiten. Allerdings wurde die spezifische Matrix, die S4 verwendet, ursprünglich in vorherigen Arbeiten für ein bestimmtes zeitabhängiges dynamisches System abgeleitet, und die Anwendung dieser Matrix in einem zeitinvarianten SSM besaß bislang keine bekannte mathematische Interpretation. Folglich bleibt der theoretische Mechanismus, durch den S4 langreichweitige Abhängigkeiten modelliert, bisher unerklärt. Wir leiten eine allgemeinere und intuitivere Formulierung des HiPPO-Frameworks ab, die S4 als eine Zerlegung auf exponentiell verformte Legendre-Polynome interpretiert und somit dessen Fähigkeit erklärt, lange Abhängigkeiten zu erfassen. Unserer Verallgemeinerung liegt eine theoretisch reichhaltige Klasse von SSMs zugrunde, die zudem die Ableitung intuitiverer S4-Varianten für andere Basen – beispielsweise die Fourier-Basis – ermöglicht, und zudem andere Aspekte des Trainings von S4 erklärt, wie etwa die Initialisierung des wichtigen Zeitskalenparameters. Diese Erkenntnisse verbessern die Leistung von S4 auf 86 % im Long Range Arena Benchmark, mit 96 % auf der anspruchsvollsten Aufgabe Path-X.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp