Jasper : Un Modèle Acoustique Neuronal Convolutif de la Première à la Dernière Couche

Dans cet article, nous présentons des résultats de pointe sur LibriSpeech parmi les modèles de reconnaissance vocale de bout en bout sans données d'entraînement externes. Notre modèle, Jasper, utilise uniquement des convolutions 1D, une normalisation par lots (batch normalization), une fonction d'activation ReLU, un dropout et des connexions résiduelles. Pour améliorer l'entraînement, nous introduisons également un nouvel optimiseur couche par couche appelé NovoGrad. Par le biais d'expériences, nous démontrons que l'architecture profonde proposée performe aussi bien ou mieux que des choix plus complexes. La variante la plus profonde de Jasper utilise 54 couches de convolution. Avec cette architecture, nous obtenons un taux d'erreur de reconnaissance (WER) de 2,95 % en utilisant un décodeur à recherche dans un faisceau (beam-search decoder) avec un modèle linguistique neuronal externe et un WER de 3,86 % avec un décodeur glouton (greedy decoder) sur le jeu de test "clean" de LibriSpeech. Nous rapportons également des résultats compétitifs sur les jeux de données d'évaluation conversationnels du Wall Street Journal et du Hub5’00.