il y a 2 mois

Le système de reconnaissance vocale conversationnelle Microsoft 2016

W. Xiong; J. Droppo; X. Huang; F. Seide; M. Seltzer; A. Stolcke; D. Yu; G. Zweig

Résumé

Nous décrivons le système de reconnaissance vocale conversationnelle de Microsoft, dans lequel nous combinons les développements récents en modélisation acoustique et linguistique basée sur les réseaux neuronaux pour faire progresser l'état de l'art dans la tâche de reconnaissance du corpus Switchboard. Inspirés par les techniques d'ensemble en apprentissage automatique, le système utilise une gamme de réseaux neuronaux convolutifs et récurrents. La modélisation i-vecteur et l'entraînement sans treillis (lattice-free) MMI apportent des gains significatifs à toutes les architectures de modèles acoustiques. Le recalage du modèle linguistique avec plusieurs RNNLMs fonctionnant en avant et en arrière, ainsi que la combinaison de systèmes basée sur les probabilités postérieures des mots, offrent une amélioration de 20 %. Le meilleur système individuel utilise un modèle acoustique d'architecture ResNet avec recalage RNNLM, atteignant un taux d'erreur mot (word error rate) de 6,9 % sur la tâche Switchboard NIST 2000. Le système combiné présente un taux d'erreur de 6,2 %, représentant une amélioration par rapport aux résultats précédemment rapportés sur cette tâche de référence.