Command Palette
Search for a command to run...
EdgeCRNN : un modèle orienté calcul en périphérie pour l’amélioration des caractéristiques acoustiques en reconnaissance de mots-clés
EdgeCRNN : un modèle orienté calcul en périphérie pour l’amélioration des caractéristiques acoustiques en reconnaissance de mots-clés
Yamin Wen Kai Ye Shunzhi Yang Zheng Gong Yungen Wei
Résumé
La détection de mots-clés (Keyword Spotting, KWS) constitue une branche importante de la reconnaissance automatique de la parole (Automatic Speech Recognition, ASR) et est largement utilisée sur les dispositifs embarqués. L’objectif de la KWS est d’obtenir une haute précision tout en minimisant le taux d’alarmes erronées (False Alarm Rate, FAR), tout en réduisant les coûts liés à la mémoire, au calcul et à la latence. Toutefois, les ressources limitées des dispositifs embarqués posent des défis importants aux applications de KWS. Les modèles légers et les architectures profondes ont permis d’obtenir de bons résultats dans le domaine de la KWS tout en maintenant des performances efficaces. Dans cet article, nous proposons une nouvelle architecture de réseau de neurones convolutifs récurrents (Convolutional Recurrent Neural Network, CRNN), nommée EdgeCRNN, spécifiquement conçue pour les dispositifs embarqués. EdgeCRNN, basée sur la convolution séparable par profondeur et une structure résiduelle, intègre une méthode d’amélioration des caractéristiques. Sur le dataset Google Speech Commands, les résultats expérimentaux montrent qu’EdgeCRNN peut traiter 11,1 segments audio par seconde sur une Raspberry Pi 3B+, soit 2,2 fois plus que Tpool2. En comparaison avec Tpool2, EdgeCRNN atteint une précision de 98,05 % tout en offrant des performances compétitives.