Détection de mots-clés bout-en-bout utilisant la recherche d'architecture neuronique et la quantification

Cet article présente une recherche d’architecture neuronale (NAS) pour la découverte automatique de modèles de détection de mots-clés (KWS) en bout-à-bout dans des environnements à ressources limitées. Nous utilisons une approche de NAS différentiable afin d’optimiser la structure des réseaux de neurones convolutifs (CNN) fonctionnant directement sur des signaux audio bruts. Une fois un modèle KWS adapté identifié grâce à la NAS, nous appliquons une quantification des poids et des activations afin de réduire l’empreinte mémoire. Nous menons des expériences approfondies sur le jeu de données Google Speech Commands. En particulier, nous comparons notre approche en bout-à-bout à des systèmes basés sur les coefficients cepstraux de fréquence mel (MFCC). Concernant la quantification, nous comparons la quantification à largeur de bits fixe et la quantification à largeur de bits entraînée. En utilisant uniquement la NAS, nous obtenons un modèle hautement efficace atteignant une précision de 95,55 % avec 75,7 k paramètres et 13,6 M d’opérations. En utilisant la quantification à largeur de bits entraînée, le même modèle atteint une précision de test de 93,76 % tout en utilisant en moyenne seulement 2,91 bits par activation et 2,51 bits par poids.