HyperAIHyperAI
il y a 17 jours

Reconnaissance vocale de pointe Samba-asr exploitant des modèles à espace d'état structurés

Syed Abdul Gaffar Shakhadri, Kruthika KR, Kartik Basavaraj Angadi
Reconnaissance vocale de pointe Samba-asr exploitant des modèles à espace d'état structurés
Résumé

Nous proposons Samba ASR, le premier modèle d’identification automatique de la parole (ASR) de pointe exploitant l’architecture novatrice Mamba à la fois comme encodeur et décodeur, fondée sur les modèles d’état (state-space models, SSMs). Contrairement aux modèles ASR basés sur les Transformers, qui reposent sur des mécanismes d’attention auto-associative pour capturer les dépendances, Samba ASR modélise efficacement à la fois les dépendances temporelles locales et globales grâce à des dynamiques d’état efficaces, réalisant ainsi des gains remarquables en performance. En surmontant les limitations des Transformers, telles que l’échelle quadratique par rapport à la longueur d’entrée et la difficulté à traiter les dépendances à longue portée, Samba ASR atteint une précision et une efficacité supérieures.Les résultats expérimentaux démontrent que Samba ASR dépasse les modèles ASR open-source existants basés sur les Transformers sur diverses benchmarks standards, établissant ainsi une nouvelle référence en matière d’ASR. Des évaluations étendues sur des jeux de données de référence révèlent des améliorations significatives du taux d’erreur de mot (Word Error Rate, WER), avec des performances compétitives même dans des scénarios à faible ressource. En outre, l’efficacité computationnelle et l’optimisation des paramètres de l’architecture Mamba rendent Samba ASR une solution évolutive et robuste pour une large gamme de tâches ASR.Nos contributions incluent :- Une nouvelle architecture Samba ASR qui démontre l’infériorité relative des Transformers par rapport aux modèles SSM pour le traitement des séquences vocales ;- Une évaluation complète sur des benchmarks publics, mettant en évidence des performances de pointe ;- Une analyse de l’efficacité computationnelle, de la robustesse au bruit et de la généralisation aux séquences. Ce travail souligne la faisabilité de l’architecture Mamba SSM comme alternative libre de Transformers pour une ASR efficace et précise. Grâce aux avancées dans la modélisation d’état, Samba ASR fixe une nouvelle référence en matière de performance ASR et ouvre la voie à de futures recherches dans ce domaine.

Reconnaissance vocale de pointe Samba-asr exploitant des modèles à espace d'état structurés | Articles de recherche récents | HyperAI