HyperAIHyperAI
il y a 2 mois

Un modèle d'attention neuronale pour la reconnaissance de commandes vocales

Douglas Coimbra de Andrade; Sabato Leo; Martin Loesener Da Silva Viana; Christoph Bernkopf
Un modèle d'attention neuronale pour la reconnaissance de commandes vocales
Résumé

Ce document présente un réseau neuronal convolutif récurrent avec mécanisme d'attention pour la reconnaissance de commandes vocales. Les modèles d'attention sont des outils puissants pour améliorer les performances dans les tâches de langage naturel, de légendage d'images et de parole. Le modèle proposé établit une nouvelle précision record de 94,1 % sur le jeu de données Google Speech Commands V1 et de 94,5 % sur V2 (pour la tâche de reconnaissance des 20 commandes), tout en conservant une empreinte réduite ne comportant que 202 K paramètres entraînables. Les résultats sont comparés à ceux des précédentes implémentations convolutives sur cinq tâches différentes (reconnaissance des 20 commandes (V1 et V2), reconnaissance des 12 commandes (V1), reconnaissance des 35 mots (V1) et détection gauche-droite (V1)). Nous présentons des résultats de performance détaillés et démontrons que le mécanisme d'attention proposé non seulement améliore les performances mais permet également d'examiner quelles régions du signal audio ont été prises en compte par le réseau lorsqu'il génère une catégorie donnée.