HyperAIHyperAI

Command Palette

Search for a command to run...

Multi-Head-State-Space-Modell für die Spracherkennung

Zusammenfassung

Zustandsraummodelle (SSMs) haben in jüngster Zeit vielversprechende Ergebnisse bei kleinskaligen Sequenz- und Sprachmodellierungsaufgaben erzielt und viele auf Aufmerksamkeit basierende Ansätze in ihrer Leistung übertroffen. In diesem Paper stellen wir eine Multi-Head-Zustandsraumarchitektur (MH-SSM) mit speziellen Gating-Mechanismen vor, bei der parallele Kopf-Module lernen, sowohl lokale als auch globale zeitliche Dynamiken in Sequenzdaten zu erfassen. Als direkter Ersatz für die Multi-Head-Aufmerksamkeit in Transformer-Encodern übertrifft dieses neue Modell die Leistung des Transformer Transducer erheblich auf dem LibriSpeech-Spracherkennungskorpus. Darüber hinaus erweitern wir den Transformer-Block um MH-SSM-Schichten, was zu einer Architektur namens Stateformer führt und eine state-of-the-art-Leistung bei der LibriSpeech-Aufgabe ermöglicht. Die Wortfehlerquoten betragen dabei 1,76 %/4,37 % auf dem Entwicklungssatz und 1,91 %/4,36 % auf dem Testset – ohne Verwendung eines externen Sprachmodells.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp