HyperAIHyperAI
vor 11 Tagen

Wie man seinen HiPPO schult: Zustandsraummodelle mit verallgemeinerten orthogonalen Basisprojektionen

Albert Gu, Isys Johnson, Aman Timalsina, Atri Rudra, Christopher Ré
Wie man seinen HiPPO schult: Zustandsraummodelle mit verallgemeinerten orthogonalen Basisprojektionen
Abstract

Lineare zeitinvariante Zustandsraummodelle (SSM) sind ein klassisches Modell aus der Ingenieurwissenschaft und Statistik, das in jüngster Zeit durch das Structured State Space Sequence Model (S4) als äußerst vielversprechend im Bereich des maschinellen Lernens erwiesen hat. Ein zentraler Bestandteil von S4 besteht darin, die Zustandsmatrix des SSM auf eine spezielle Matrix zu initialisieren, die als HiPPO-Matrix bezeichnet wird. Diese Initialisierung erwies sich empirisch als entscheidend für die Fähigkeit von S4, lange Sequenzen zu verarbeiten. Allerdings wurde die spezifische Matrix, die S4 verwendet, ursprünglich in vorherigen Arbeiten für ein bestimmtes zeitabhängiges dynamisches System abgeleitet, und die Anwendung dieser Matrix in einem zeitinvarianten SSM besaß bislang keine bekannte mathematische Interpretation. Folglich bleibt der theoretische Mechanismus, durch den S4 langreichweitige Abhängigkeiten modelliert, bisher unerklärt. Wir leiten eine allgemeinere und intuitivere Formulierung des HiPPO-Frameworks ab, die S4 als eine Zerlegung auf exponentiell verformte Legendre-Polynome interpretiert und somit dessen Fähigkeit erklärt, lange Abhängigkeiten zu erfassen. Unserer Verallgemeinerung liegt eine theoretisch reichhaltige Klasse von SSMs zugrunde, die zudem die Ableitung intuitiverer S4-Varianten für andere Basen – beispielsweise die Fourier-Basis – ermöglicht, und zudem andere Aspekte des Trainings von S4 erklärt, wie etwa die Initialisierung des wichtigen Zeitskalenparameters. Diese Erkenntnisse verbessern die Leistung von S4 auf 86 % im Long Range Arena Benchmark, mit 96 % auf der anspruchsvollsten Aufgabe Path-X.

Wie man seinen HiPPO schult: Zustandsraummodelle mit verallgemeinerten orthogonalen Basisprojektionen | Neueste Forschungsarbeiten | HyperAI