HyperAIHyperAI

Command Palette

Search for a command to run...

Sei SSMs ConvNets: Zustandsraummodellierung mit optimalen Tensorcontraktionen

Yan Ru Pei

Zusammenfassung

Wir stellen Centaurus vor, eine Klasse von Netzwerken, die aus verallgemeinerten Zustandsraummodell-Blöcken (SSM) besteht, bei denen die SSM-Operationen während des Trainings als Tensor-Kontraktionen behandelt werden können. Die optimale Reihenfolge der Tensor-Kontraktionen kann dann systematisch für jeden SSM-Block bestimmt werden, um die Trainings-effizienz zu maximieren. Dies ermöglicht eine größere Flexibilität beim Design von SSM-Blöcken über die üblicherweise implementierte tiefgangweise trennbare Konfiguration hinaus. Die neuen Designentscheidungen werden sich von klassischen Faltungsblöcken wie Gruppenfaltungen, vollständigen Faltungen und Flaschenhalsblöcken inspirieren lassen. Wir gestalten das Centaurus-Netzwerk mit einer Mischung dieser Blöcke, um ein Gleichgewicht zwischen Netzwerkgröße und Leistung sowie Speicher- und Recheneffizienz während des Trainings und der Inferenz herzustellen. Wir zeigen, dass dieses heterogene Netzwerkdesign seine homogenen Gegenstücke in Rohaudiodatenverarbeitungsaufgaben wie Schlüsselworterkennung, Sprachentrauschung und automatische Spracherkennung (ASR) übertrifft. Für ASR ist Centaurus das erste Netzwerk mit wettbewerbsfähigem Leistungsvermögen, das vollständig auf Zustandsraummodellen basiert, ohne irgendeine nichtlineare Rekurrenz (LSTMs), explizite Faltungen (CNNs) oder (proxys-) Aufmerksamkeitsmechanismen zu verwenden. Der Quellcode ist als Ergänzungsmaterial unter https://openreview.net/forum?id=PkpNRmBZ32 verfügbar.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
Sei SSMs ConvNets: Zustandsraummodellierung mit optimalen Tensorcontraktionen | Paper | HyperAI