ContextNet : Amélioration des réseaux de neurones convolutionnels pour la reconnaissance automatique de la parole grâce au contexte global

Les réseaux de neurones convolutifs (CNN) ont montré des résultats prometteurs pour la reconnaissance vocale end-to-end, bien qu’ils restent encore inférieurs aux méthodes de pointe en matière de performance. Dans cet article, nous étudions comment combler cet écart et aller au-delà grâce à une nouvelle architecture CNN-RNN-transducer que nous appelons ContextNet. ContextNet repose sur un encodeur entièrement convolutif qui intègre des informations contextuelles globales au sein des couches de convolution grâce à l’ajout de modules squeeze-and-excitation. En outre, nous proposons une méthode simple d’agrandissement (scaling) qui permet d’ajuster les largeurs de ContextNet, offrant un bon compromis entre complexité computationnelle et précision. Nous démontrons que sur le benchmark largement utilisé LibriSpeech, ContextNet atteint un taux d’erreur de mot (WER) de 2,1 %/4,6 % sans modèle linguistique externe (LM), de 1,9 %/4,1 % avec LM, et de 2,9 %/7,0 % avec seulement 10 millions de paramètres sur les ensembles de test propres/bruyants de LibriSpeech. Ces résultats surpassent le système précédemment publié le plus performant, qui atteignait 2,0 %/4,6 % avec LM et 3,9 %/11,3 % avec 20 millions de paramètres. La supériorité du modèle ContextNet proposée est également confirmée sur un jeu de données interne bien plus important.