HyperAIHyperAI

Command Palette

Search for a command to run...

Un modèle d'attention neuronale pour la reconnaissance de commandes vocales

Douglas Coimbra de Andrade Sabato Leo Martin Loesener Da Silva Viana Christoph Bernkopf

Résumé

Ce document présente un réseau neuronal convolutif récurrent avec mécanisme d'attention pour la reconnaissance de commandes vocales. Les modèles d'attention sont des outils puissants pour améliorer les performances dans les tâches de langage naturel, de légendage d'images et de parole. Le modèle proposé établit une nouvelle précision record de 94,1 % sur le jeu de données Google Speech Commands V1 et de 94,5 % sur V2 (pour la tâche de reconnaissance des 20 commandes), tout en conservant une empreinte réduite ne comportant que 202 K paramètres entraînables. Les résultats sont comparés à ceux des précédentes implémentations convolutives sur cinq tâches différentes (reconnaissance des 20 commandes (V1 et V2), reconnaissance des 12 commandes (V1), reconnaissance des 35 mots (V1) et détection gauche-droite (V1)). Nous présentons des résultats de performance détaillés et démontrons que le mécanisme d'attention proposé non seulement améliore les performances mais permet également d'examiner quelles régions du signal audio ont été prises en compte par le réseau lorsqu'il génère une catégorie donnée.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp