HEiMDaL : Méthode hautement efficace pour la détection et la localisation des mots réveils

La détection de mots-clés en streaming est une solution largement utilisée pour activer les assistants vocaux. Les méthodes basées sur les réseaux de neurones profonds combinés à des modèles de Markov cachés (DNN-HMM) se sont révélées efficaces et largement adoptées dans ce domaine, principalement en raison de leur capacité à détecter et identifier avec peu de coût computationnel le début et la fin du mot de réveil. Toutefois, ces systèmes hybrides souffrent d’un désaccord entre les métriques de perte lorsqu’ils sont entraînés de manière indépendante. L’entraînement discriminatif de séquences ne parvient pas à éliminer entièrement ce désaccord en raison de la nature intrinsèquement markovienne de leur fonctionnement. Nous proposons un modèle CNN à faible empreinte mémoire, appelé HEiMDaL, destiné à détecter et localiser les mots-clés dans des conditions de streaming. Nous introduisons une perte de classification basée sur l’alignement pour détecter l’occurrence du mot-clé, ainsi qu’une perte d’offset pour prédire son début. HEiMDaL permet une réduction de 73 % des métriques de détection, tout en offrant une précision de localisation équivalente à celle des modèles DNN-HMM existants, avec la même empreinte mémoire pour un mot de réveil donné.