Construction de modèles acoustiques DNN pour la reconnaissance vocale à grand vocabulaire

Les réseaux de neurones profonds (DNNs) sont désormais un élément central de presque tous les systèmes de reconnaissance vocale de pointe. La construction de modèles acoustiques basés sur des réseaux de neurones nécessite plusieurs décisions de conception, notamment l'architecture du réseau, sa taille et la fonction de perte d'entraînement. Cet article présente une enquête empirique sur les aspects du design des modèles acoustiques DNN qui sont les plus importants pour la performance des systèmes de reconnaissance vocale. Nous rapportons les performances des classifieurs DNN et les taux d'erreur en mots du reconnaisseur vocal final, et nous comparons les DNNs à l'aide de plusieurs métriques pour quantifier les facteurs influençant les différences de performance dans la tâche. Notre premier ensemble d'expériences utilise le corpus standard Switchboard, qui contient environ 300 heures de discours téléphonique conversationnel. Nous comparons des DNNs standards aux réseaux convolutifs et présentons les premières expériences utilisant des réseaux de neurones localement connectés et non liés (untied) pour la modélisation acoustique. Nous construisons également des systèmes sur un corpus comprenant 2 100 heures de données d'entraînement en combinant les corpus Switchboard et Fisher. Ce corpus plus important nous permet d'examiner plus en détail la performance des grands modèles DNN -- avec jusqu'à dix fois plus de paramètres que ceux généralement utilisés dans les systèmes de reconnaissance vocale. Nos résultats suggèrent qu'une architecture DNN relativement simple et une technique d'optimisation produisent des résultats solides. Ces constatations, associées aux travaux précédents, contribuent à établir un ensemble de bonnes pratiques pour la construction de systèmes hybrides DNN de reconnaissance vocale avec entraînement par vraisemblance maximale. Nos expériences en optimisation DNN servent également d'étude de cas pour l'entraînement des DNNs avec des fonctions de perte discriminatives pour les tâches vocales, ainsi que pour les classifieurs DNN plus généralement.