HyperAIHyperAI
il y a 2 mois

Mécanisme d'Attention Multi-couche pour la Reconnaissance de Mots-clés Oraux

Ruisen Luo; Tianran Sun; Chen Wang; Miao Du; Zuodong Tang; Kai Zhou; Xiaofeng Gong; Xiaomei Yang
Mécanisme d'Attention Multi-couche pour la Reconnaissance de Mots-clés Oraux
Résumé

En tant que composante importante de la technologie de reconnaissance vocale, la reconnaissance automatique des mots-clés dans le discours a été l'objet d'études intensives ces dernières années. Cette technologie devient particulièrement cruciale dans des situations où les infrastructures et les ressources informatiques sont limitées, comme la reconnaissance des commandes vocales dans les véhicules et l'interaction avec les robots. Actuellement, les méthodes principales utilisées pour la reconnaissance automatique des mots-clés sont basées sur des réseaux de mémoire à court et long terme (LSTM) dotés d'un mécanisme d'attention. Cependant, en raison des pertes d'information inévitables subies par la couche LSTM lors de l'extraction des caractéristiques, les poids d'attention calculés sont biaisés. Dans cet article, une nouvelle approche nommée Mécanisme d'Attention Multicouche est proposée pour résoudre le problème des poids d'attention inexactes. L'idée clé est que, en plus du mécanisme d'attention conventionnel, les informations provenant des couches antérieures à l'extraction des caractéristiques et aux LSTM sont intégrées dans le calcul des poids d'attention. Ainsi, les poids d'attention sont plus précis car le modèle global peut avoir des zones plus précises et ciblées. Nous avons mené une analyse comparative exhaustive des performances de détection de mots-clés sur un réseau neuronal convolutif (CNN), un réseau neuronal récurrent bidirectionnel LSTM (BLSTM) et un réseau neuronal récurrent avec le mécanisme d'attention proposé, en utilisant les jeux de données Google Speech Command V2. Les résultats expérimentaux indiquent une performance favorable pour la méthode proposée et démontrent sa validité. La méthode multicouche proposée peut être utile pour d'autres recherches liées à la détection d'objets.