HyperAIHyperAI

Command Palette

Search for a command to run...

Optimiser ce qui compte : Entraînement d'un modèle de détection de mots-clés DNN-HMM à l'aide d'une métrique finale

Ashish Shrivastava Arnav Kundu Chandra Dhir Devang Naik Oncel Tuzel

Résumé

Les méthodes basées sur le réseau de neurones profond (DNN) couplé au modèle de Markov caché (HMM) ont été largement utilisées avec succès dans de nombreux algorithmes de détection de mots-clés en continu (always-on), destinés à détecter un mot d’activation (wake word) afin de déclencher un dispositif. Le DNN prédit les probabilités d’état associées à une trame de parole donnée, tandis que le décodeur HMM combine les prédictions du DNN sur plusieurs trames successives pour calculer un score de détection du mot-clé. Dans les approches antérieures, le DNN est entraîné de manière indépendante des paramètres HMM, afin de minimiser la perte d’entropie croisée entre les probabilités d’état prédites et les probabilités d’état vraies (ground-truth). Ce désaccord entre la fonction de perte d’entraînement du DNN (entropie croisée) et le métrique finale (score de détection) constitue la principale cause de performance sous-optimale pour la tâche de détection de mots-clés. Nous remédions à ce décalage entre perte et métrique grâce à une nouvelle stratégie d’entraînement end-to-end qui apprend les paramètres du DNN en optimisant directement le score de détection. Pour cela, nous rendons le décodeur HMM (basé sur la programmation dynamique) différentiable et permettons la rétropropagation du gradient à travers lui, afin de maximiser le score pour les segments contenant le mot-clé tout en minimisant les scores pour les segments non pertinents. Notre méthode ne nécessite aucune modification de l’architecture du modèle ni du cadre d’inférence, et n’entraîne donc aucune surcharge en mémoire ou en ressources de calcul au moment de l’exécution. En outre, nous démontrons une réduction significative du taux de rejet erroné (FRR), tout en maintenant le même niveau de taux de déclenchement erroné (false trigger), avec une amélioration supérieure à 70 % par rapport à l’entraînement indépendant du DNN.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp
Optimiser ce qui compte : Entraînement d'un modèle de détection de mots-clés DNN-HMM à l'aide d'une métrique finale | Articles | HyperAI