Reconnaissance vocale bout-en-bout utilisant le MMI sans treillis

Nous présentons notre travail sur l'entraînement end-to-end de modèles acoustiques utilisant la fonction objective d'information mutuelle maximale sans grille (LF-MMI) dans le cadre des modèles de Markov cachés. Par entraînement end-to-end, nous entendons un entraînement en une seule phase d'un seul réseau de neurones profond (DNN), sans recourir à des modèles préalablement entraînés, à des alignements forcés ou à la construction d'arbres de décision pour le regroupement d'états. Nous utilisons des biphones complets afin de permettre une modélisation dépendante du contexte sans recourir à des arbres, et montrons que notre approche end-to-end basée sur LF-MMI permet d'obtenir des résultats comparables à ceux de la méthode LF-MMI classique sur des tâches à grand vocabulaire bien connues. Nous comparons également notre méthode à d'autres approches end-to-end, telles que CTC, dans des contextes basés sur les caractères et sans lexique, et obtenons une réduction relative de 5 à 25 % du taux d'erreurs en mots sur différentes tâches à grand vocabulaire, tout en utilisant des modèles significativement plus petits.