vor 2 Monaten

Flüssige Strukturelle Zustandsraummodelle

Ramin Hasani; Mathias Lechner; Tsun-Hsuan Wang; Makram Chahine; Alexander Amini; Daniela Rus

Abstract

Eine angemessene Parametrisierung der Zustandsübergangsmatrizen von linearen Zustandsraummodellen (SSMs), gefolgt von Standardnichtlinearitäten, ermöglicht es ihnen, effizient Darstellungen aus sequentiellen Daten zu lernen und den aktuellen Stand der Technik in einer Reihe von Benchmarks für langfristige Sequenzmodelle aufzustellen. In dieser Arbeit zeigen wir, dass wir noch weiter verbessern können, wenn das strukturelle SSM wie S4 durch ein lineares Flüssiges Zeitkonstanten-Modell (LTC) gegeben ist. LTC-Neuronale Netze sind kausale kontinuierliche Neuronale Netze mit einem auf die Eingabe abgestimmten Zustandsübergangsmodul, was sie befähigt, sich während der Inferenz an eingehende Eingaben anzupassen. Wir zeigen, dass durch die Verwendung einer Diagonal-Plus-Niedrigrang-Zerlegung der Zustandsübergangsmatrix, die in S4 eingeführt wurde, und einige Vereinfachungen, das auf LTC basierende strukturelle Zustandsraummodell, genannt Liquid-S4, eine neue Spitzenleistung bei Generalisierung über sequenzielle Aufgaben mit langfristigen Abhängigkeiten erreicht – beispielsweise bei Bildern, Texten, Audio und medizinischen Zeitreihen – mit einer durchschnittlichen Leistung von 87,32 % im Long-Range Arena-Benchmark. Bei der vollständigen Rohdaten-Sprachbefehlserkennung erreicht Liquid-S4 eine Genauigkeit von 96,78 % und reduziert gleichzeitig die Anzahl der Parameter um 30 % im Vergleich zu S4. Der zusätzliche Leistungsgewinn ist das direkte Ergebnis der Kernelsstruktur des Liquid-S4, die während des Trainings und der Inferenz die Ähnlichkeiten der Eingabesequenzbeispiele berücksichtigt.