Apprentissage par résidu diffusé pour une détection efficace de mots-clés

La détection de mots-clés est un domaine de recherche important, car elle joue un rôle clé dans l’activation des dispositifs et l’interaction utilisateur sur les appareils intelligents. Toutefois, il est difficile de minimiser les erreurs tout en assurant une efficacité opérationnelle sur des dispositifs à ressources limitées, tels que les téléphones portables. Nous proposons une méthode d’apprentissage résiduel diffusé (broadcasted residual learning) permettant d’atteindre une haute précision avec une taille de modèle réduite et une charge computationnelle faible. Notre méthode configure la majeure partie des fonctions résiduelles sous forme de convolution temporelle 1D, tout en permettant l’utilisation conjointe de convolutions 2D grâce à une connexion résiduelle diffusée qui étend la sortie temporelle vers le domaine fréquence-temporel. Cette architecture de mapping résiduel permet au réseau de représenter efficacement des caractéristiques audio pertinentes avec une consommation computationnelle bien moindre que celle des réseaux de neurones convolutifs classiques. Nous introduisons également une nouvelle architecture de réseau, appelée Broadcasting-residual network (BC-ResNet), fondée sur l’apprentissage résiduel diffusé, et décrivons une stratégie pour adapter la taille du modèle en fonction des ressources disponibles sur le dispositif cible. Les BC-ResNet atteignent des performances de pointe, avec une précision top-1 de 98,0 % et 98,7 % respectivement sur les jeux de données Google Speech Commands v1 et v2, tout en surpassant de manière cohérente les approches antérieures, avec une consommation réduite de calculs et de paramètres. Le code source est disponible à l’adresse suivante : https://github.com/Qualcomm-AI-research/bcresnet.