Convolution Temporelle pour la Détection en Temps Réel de Mots-clés sur les Appareils Mobiles

La détection de mots-clés (KWS) joue un rôle crucial dans la mise en œuvre des interactions utilisateur basées sur la parole sur les appareils intelligents. Les récentes avancées dans le domaine de l'apprentissage profond ont conduit à une adoption généralisée des réseaux de neurones convolutifs (CNNs) dans les systèmes KWS, en raison de leur précision exceptionnelle et de leur robustesse. Le principal défi auquel sont confrontés les systèmes KWS est le compromis entre une haute précision et une faible latence. Malheureusement, il y a eu peu d'analyses quantitatives de la latence réelle des modèles KWS sur les appareils mobiles. Cela est particulièrement préoccupant car les approches conventionnelles KWS basées sur la convolution sont connues pour nécessiter un grand nombre d'opérations pour atteindre un niveau de performance adéquat. Dans cet article, nous proposons une convolution temporelle pour la détection de mots-clés en temps réel sur les appareils mobiles. Contrairement aux approches KWS basées sur la convolution 2D qui nécessitent généralement une architecture profonde pour capturer pleinement à la fois les domaines de fréquences basses et hautes, nous utilisons des convolutions temporelles avec une architecture ResNet compacte. Sur le jeu de données Google Speech Command, nous obtenons plus de 385 fois d'accélération sur Google Pixel 1 et surpassons la précision par rapport au modèle d'état de l'art. De plus, nous mettons à disposition l'implémentation des modèles proposés et de référence, ainsi qu'un pipeline complet allant de l'entraînement des modèles à leur évaluation sur les appareils mobiles.