Multi-Head-State-Space-Modell für die Spracherkennung

Zustandsraummodelle (SSMs) haben in jüngster Zeit vielversprechende Ergebnisse bei kleinskaligen Sequenz- und Sprachmodellierungsaufgaben erzielt und viele auf Aufmerksamkeit basierende Ansätze in ihrer Leistung übertroffen. In diesem Paper stellen wir eine Multi-Head-Zustandsraumarchitektur (MH-SSM) mit speziellen Gating-Mechanismen vor, bei der parallele Kopf-Module lernen, sowohl lokale als auch globale zeitliche Dynamiken in Sequenzdaten zu erfassen. Als direkter Ersatz für die Multi-Head-Aufmerksamkeit in Transformer-Encodern übertrifft dieses neue Modell die Leistung des Transformer Transducer erheblich auf dem LibriSpeech-Spracherkennungskorpus. Darüber hinaus erweitern wir den Transformer-Block um MH-SSM-Schichten, was zu einer Architektur namens Stateformer führt und eine state-of-the-art-Leistung bei der LibriSpeech-Aufgabe ermöglicht. Die Wortfehlerquoten betragen dabei 1,76 %/4,37 % auf dem Entwicklungssatz und 1,91 %/4,36 % auf dem Testset – ohne Verwendung eines externen Sprachmodells.