HyperAIHyperAI
il y a 17 jours

Optimiser ce qui compte : Entraînement d'un modèle de détection de mots-clés DNN-HMM à l'aide d'une métrique finale

Ashish Shrivastava, Arnav Kundu, Chandra Dhir, Devang Naik, Oncel Tuzel
Optimiser ce qui compte : Entraînement d'un modèle de détection de mots-clés DNN-HMM à l'aide d'une métrique finale
Résumé

Les méthodes basées sur le réseau de neurones profond (DNN) couplé au modèle de Markov caché (HMM) ont été largement utilisées avec succès dans de nombreux algorithmes de détection de mots-clés en continu (always-on), destinés à détecter un mot d’activation (wake word) afin de déclencher un dispositif. Le DNN prédit les probabilités d’état associées à une trame de parole donnée, tandis que le décodeur HMM combine les prédictions du DNN sur plusieurs trames successives pour calculer un score de détection du mot-clé. Dans les approches antérieures, le DNN est entraîné de manière indépendante des paramètres HMM, afin de minimiser la perte d’entropie croisée entre les probabilités d’état prédites et les probabilités d’état vraies (ground-truth). Ce désaccord entre la fonction de perte d’entraînement du DNN (entropie croisée) et le métrique finale (score de détection) constitue la principale cause de performance sous-optimale pour la tâche de détection de mots-clés. Nous remédions à ce décalage entre perte et métrique grâce à une nouvelle stratégie d’entraînement end-to-end qui apprend les paramètres du DNN en optimisant directement le score de détection. Pour cela, nous rendons le décodeur HMM (basé sur la programmation dynamique) différentiable et permettons la rétropropagation du gradient à travers lui, afin de maximiser le score pour les segments contenant le mot-clé tout en minimisant les scores pour les segments non pertinents. Notre méthode ne nécessite aucune modification de l’architecture du modèle ni du cadre d’inférence, et n’entraîne donc aucune surcharge en mémoire ou en ressources de calcul au moment de l’exécution. En outre, nous démontrons une réduction significative du taux de rejet erroné (FRR), tout en maintenant le même niveau de taux de déclenchement erroné (false trigger), avec une amélioration supérieure à 70 % par rapport à l’entraînement indépendant du DNN.