HyperAIHyperAI

Command Palette

Search for a command to run...

Samba-asr State-of-the-Art-Spracherkennung, die strukturierte Zustandsraummodelle nutzt

Syed Abdul Gaffar Shakhadri Kruthika KR Kartik Basavaraj Angadi

Zusammenfassung

Wir stellen Samba ASR vor, das erste moderne Spracherkennungsmodell (Automatic Speech Recognition, ASR), das architektonisch auf der neuartigen Mamba-Architektur basiert und diese sowohl als Encoder als auch als Decoder nutzt, aufbauend auf der Grundlage von Zustandsraummodellen (State-Space Models, SSMs). Im Gegensatz zu transformerbasierten ASR-Modellen, die auf Selbst-Attention-Mechanismen zur Erfassung von Abhängigkeiten angewiesen sind, modelliert Samba ASR effizient sowohl lokale als auch globale zeitliche Abhängigkeiten mithilfe effizienter Zustandsraumdynamiken und erreicht dabei beachtliche Leistungssteigerungen. Durch die Überwindung der Grenzen von Transformers – insbesondere der quadratischen Skalierung mit der Eingabedauer und der Schwierigkeit bei der Behandlung langstreckiger Abhängigkeiten – erzielt Samba ASR eine überlegene Genauigkeit und Effizienz.Experimentelle Ergebnisse zeigen, dass Samba ASR bestehende Open-Source-Transformer-basierte ASR-Modelle auf verschiedenen Standardbenchmarks übertrifft und damit die neue State-of-the-Art in der ASR darstellt. Umfassende Evaluierungen an Benchmark-Datensätzen belegen signifikante Verbesserungen im Wortfehlerquote (Word Error Rate, WER), selbst in Szenarien mit geringen Ressourcen. Zudem ermöglicht die rechnerische Effizienz und die Parameteroptimierung der Mamba-Architektur eine skalierbare und robuste Lösung für vielfältige ASR-Aufgaben.Unsere Beiträge umfassen:- Eine neue Samba ASR-Architektur, die die Überlegenheit von Zustandsraummodellen gegenüber transformerbasierten Modellen für die Verarbeitung von Sprachsequenzen belegt.- Eine umfassende Evaluation an öffentlichen Benchmarks, die state-of-the-art-Leistung demonstriert.- Eine Analyse der rechnerischen Effizienz, der Robustheit gegenüber Rauschen sowie der Generalisierungsfähigkeit auf Sequenzen. Diese Arbeit unterstreicht die Eignung von Mamba-SSMs als transformerfreie Alternative für eine effiziente und genaue Spracherkennung. Durch die Nutzung neuer Entwicklungen im Bereich der Zustandsraummodellierung setzt Samba ASR einen neuen Maßstab für die ASR-Leistung und eröffnet neue Wege für zukünftige Forschung.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
Samba-asr State-of-the-Art-Spracherkennung, die strukturierte Zustandsraummodelle nutzt | Paper | HyperAI