Combinaison efficace de DenseNet et de BiLSTM pour la détection de mots-clés
La détection de mots-clés (KWS) constitue une composante essentielle de l’interaction homme-machine sur les terminaux embarqués et les robots-services, dont l’objectif est de maximiser la précision de détection tout en maintenant une taille de modèle réduite. Dans cet article, en s’appuyant sur la puissante capacité de DenseNet à extraire des cartes de caractéristiques locales, nous proposons une nouvelle architecture de réseau, nommée DenseNet-BiLSTM, dédiée à la KWS. Dans notre modèle DenseNet-BiLSTM, DenseNet est principalement utilisé pour extraire des caractéristiques locales, tandis que le BiLSTM permet de capturer les caractéristiques temporelles des séries chronologiques. En général, DenseNet est largement appliqué aux tâches de vision par ordinateur, mais son utilisation directe sur des signaux audio peut altérer l’information contextuelle temporelle. Afin de rendre DenseNet adapté à la KWS, nous proposons une variante, appelée DenseNet-Speech, qui élimine les opérations de pooling sur la dimension temporelle dans les couches de transition, afin de préserver l’information séquentielle des signaux audio. Par ailleurs, DenseNet-Speech utilise un nombre réduit de blocs denses et de filtres, ce qui permet de réduire la taille du modèle et, par conséquent, de diminuer la consommation de temps sur les dispositifs mobiles. Les résultats expérimentaux montrent que les cartes de caractéristiques issues de DenseNet-Speech conservent efficacement l’information temporelle. Notre méthode surpassent les approches de pointe en termes de précision sur le jeu de données Google Speech Commands. DenseNet-BiLSTM atteint une précision de 96,6 % pour la reconnaissance de 20 commandes, avec seulement 223 000 paramètres entraînables.