Samba-asr State-of-the-Art-Spracherkennung, die strukturierte Zustandsraummodelle nutzt

Wir stellen Samba ASR vor, das erste moderne Spracherkennungsmodell (Automatic Speech Recognition, ASR), das architektonisch auf der neuartigen Mamba-Architektur basiert und diese sowohl als Encoder als auch als Decoder nutzt, aufbauend auf der Grundlage von Zustandsraummodellen (State-Space Models, SSMs). Im Gegensatz zu transformerbasierten ASR-Modellen, die auf Selbst-Attention-Mechanismen zur Erfassung von Abhängigkeiten angewiesen sind, modelliert Samba ASR effizient sowohl lokale als auch globale zeitliche Abhängigkeiten mithilfe effizienter Zustandsraumdynamiken und erreicht dabei beachtliche Leistungssteigerungen. Durch die Überwindung der Grenzen von Transformers – insbesondere der quadratischen Skalierung mit der Eingabedauer und der Schwierigkeit bei der Behandlung langstreckiger Abhängigkeiten – erzielt Samba ASR eine überlegene Genauigkeit und Effizienz.Experimentelle Ergebnisse zeigen, dass Samba ASR bestehende Open-Source-Transformer-basierte ASR-Modelle auf verschiedenen Standardbenchmarks übertrifft und damit die neue State-of-the-Art in der ASR darstellt. Umfassende Evaluierungen an Benchmark-Datensätzen belegen signifikante Verbesserungen im Wortfehlerquote (Word Error Rate, WER), selbst in Szenarien mit geringen Ressourcen. Zudem ermöglicht die rechnerische Effizienz und die Parameteroptimierung der Mamba-Architektur eine skalierbare und robuste Lösung für vielfältige ASR-Aufgaben.Unsere Beiträge umfassen:- Eine neue Samba ASR-Architektur, die die Überlegenheit von Zustandsraummodellen gegenüber transformerbasierten Modellen für die Verarbeitung von Sprachsequenzen belegt.- Eine umfassende Evaluation an öffentlichen Benchmarks, die state-of-the-art-Leistung demonstriert.- Eine Analyse der rechnerischen Effizienz, der Robustheit gegenüber Rauschen sowie der Generalisierungsfähigkeit auf Sequenzen. Diese Arbeit unterstreicht die Eignung von Mamba-SSMs als transformerfreie Alternative für eine effiziente und genaue Spracherkennung. Durch die Nutzung neuer Entwicklungen im Bereich der Zustandsraummodellierung setzt Samba ASR einen neuen Maßstab für die ASR-Leistung und eröffnet neue Wege für zukünftige Forschung.