Réseaux de Neurones Convolutifs Multilingues Très Profonds pour la Reconnaissance Continue de la Parole (LVCSR)

Les réseaux de neurones convolutifs (CNNs) constituent un élément standard de nombreux systèmes actuels d'identification vocale continue à grand vocabulaire (LVCSR). Cependant, les CNNs dans le domaine de l'LVCSR n'ont pas suivi le rythme des récentes avancées réalisées dans d'autres domaines où des réseaux de neurones plus profonds offrent des performances supérieures. Dans cet article, nous proposons plusieurs améliorations architecturales pour les CNNs utilisés en LVCSR. Premièrement, nous introduisons une architecture de réseau convolutif très profond avec jusqu'à 14 couches de poids. Cette architecture comprend plusieurs couches convolutives avant chaque couche de regroupement, avec des noyaux de petite taille 3x3, inspirés par l'architecture VGG Imagenet 2014. Ensuite, nous présentons des CNNs multilingues avec plusieurs couches non liées. Enfin, nous introduisons des caractéristiques d'entrée multi-échelles visant à exploiter davantage de contexte avec un coût computationnel négligeable.Nous évaluons ces améliorations d'abord sur une tâche Babel pour la reconnaissance vocale à ressources limitées, obtenant une amélioration absolue de 5,77 % du taux d'erreur mot (WER) par rapport au modèle PLP DNN de base en formant notre CNN sur les données combinées de six langues différentes. Nous évaluons ensuite les CNNs très profonds sur le banc d'essai Hub5’00 (en utilisant les 262 heures de données d'apprentissage SWB-1), atteignant un taux d'erreur mot de 11,8 % après l'apprentissage par entropie croisée, soit une amélioration du WER de 1,4 % (10,6 % relative) par rapport au meilleur résultat CNN publié jusqu'à présent.