Détection efficace de mots-clés à l'aide de réseaux de neurones à retard temporel

Ce document décrit une nouvelle méthode de détection en temps réel des mots-clés à l'aide d'un réseau neuronal à retard temporel en deux étapes. Le modèle est formé en utilisant le transfert d'apprentissage : une formation initiale avec des cibles phonétiques provenant d'un grand corpus de parole est suivie par une formation avec des cibles de mots-clés provenant d'un ensemble de données plus petit. La précision du système est évaluée sur deux tâches distinctes. La première est le jeu de données Google Speech Commands, librement disponible. La seconde est une tâche interne spécifiquement développée pour la détection des mots-clés. Les résultats montrent des améliorations significatives des taux de fausses acceptations et de fausses rejets dans les environnements propres et bruyants, comparativement aux techniques précédemment connues. De plus, nous examinons diverses techniques pour réduire le calcul en termes de multiplications par seconde d'audio. Comparé aux travaux récemment publiés, le système proposé offre jusqu'à 89 % d'économies en termes de complexité computationnelle.