Vers une détection de mots-clés sur dispositif utilisant des modèles neuronaux en quaternions à faible empreinte
La détection de mots-clés embarqués (on-device keyword spotting, KWS) constitue un élément essentiel pour l’activation et l’interaction utilisateur sur les dispositifs intelligents aux bords (edge devices). Les modèles à faible empreinte existants reposent principalement sur des convolutions 1D et 2D, où les premières offrent une meilleure invariance tandis que les secondes permettent des temps d’inférence plus rapides. Dans ce travail, nous explorons les modèles neuronaux en quaternions comme alternative pour une modélisation acoustique efficace dans le cadre de la tâche KWS. Les modèles en quaternions permettent d’incorporer diverses facettes des caractéristiques d’entrée dans les différentes dimensions de l’espace quaternionien. Cela conduit à des modèles plus compacts et plus efficaces par rapport à leurs homologues classiques. Nous démontrons cette efficacité en proposant des versions quaternioniques de modèles KWS populaires sur le jeu de données Google Command V2, où nos modèles atteignent des performances comparables à celles des modèles existants. En outre, nous fournissons une analyse approfondie du comportement d’apprentissage au sein des réseaux en quaternions, afin de justifier leur potentiel dans d’autres tâches vocales ou audio.