Réseaux de neurones entraînés uniquement sur des séquences pour la reconnaissance automatique de la parole basée sur le MMI sans treillis

Dans cet article, nous décrivons une méthode permettant d'entraîner des modèles acoustiques neuronaux de manière discriminative par rapport aux séquences, sans nécessiter d'étape préalable d'entraînement par entropie croisée au niveau des trames. Nous utilisons une version sans grille (lattice-free) du critère d'information mutuelle maximale : LF-MMI. Pour rendre son calcul réalisable, nous employons un modèle de langage à n-grammes de phonèmes, à la place d'un modèle de langage à mots. Pour réduire davantage la complexité spatiale et temporelle, nous calculons la fonction objectif à partir des sorties du réseau neuronal à un tiers de la fréquence de trame standard. Ces modifications permettent d'effectuer le calcul de l'algorithme de passage avant-arrière sur des unités de traitement graphique (GPU). En outre, la réduction du taux de sortie des trames offre également un gain significatif en vitesse pendant le décodage.Nous présentons les résultats obtenus sur cinq tâches différentes de reconnaissance vocale à large vocabulaire (LVCSR), avec des données d'entraînement variant de 100 à 2100 heures. Les modèles entraînés avec LF-MMI réduisent le taux d'erreur mot de manière relative de ∼11,5 % par rapport aux modèles entraînés avec la fonction objectif d'entropie croisée, et de ∼8 % par rapport aux modèles entraînés avec les fonctions d'entropie croisée et sMBR. Une réduction supplémentaire d'environ ∼2,5 % (relative) peut être obtenue en affinant ces modèles à l'aide de la fonction objectif sMBR basée sur les grilles de mots.