Reconnaissance de la Parole Conversationnelle Téléphonique en Anglais par les Humains et les Machines

L'une des tâches les plus difficiles en reconnaissance de la parole est l'identification précise des communications entre humains. Les progrès réalisés dans l'apprentissage profond au cours des dernières années ont permis d'améliorer considérablement la reconnaissance de la parole sur le corpus conversationnel représentatif Switchboard. Les taux d'erreur par mot, qui étaient de 14 % il y a quelques années, sont tombés à 8,0 %, puis à 6,6 % et récemment à 5,8 %. On pense maintenant qu'ils se rapprochent du niveau de performance humaine. Cela soulève alors deux questions : quelle est exactement la performance humaine, et jusqu'où pouvons-nous encore réduire les taux d'erreur en reconnaissance de la parole ? Un article récent de Microsoft suggère que nous avons déjà atteint la performance humaine. Pour vérifier cette affirmation, nous avons effectué une série indépendante de mesures de performance humaine sur deux tâches conversationnelles et constaté que la performance humaine pourrait être bien meilleure que ce qui avait été rapporté précédemment, fixant ainsi un objectif beaucoup plus ambitieux pour la communauté. Nous présentons également nos propres efforts dans ce domaine, en décrivant un ensemble de techniques d'acquisition acoustique et de modélisation linguistique qui ont permis de réduire le taux d'erreur par mot de notre système LVCSR (Large Vocabulary Continuous Speech Recognition) conversationnel téléphonique anglais au niveau de 5,5 % / 10,3 % sur les sous-ensembles Switchboard/CallHome de l'évaluation Hub5 2000, ce qui constitue – au moment où cet article a été écrit – un nouveau jalon en termes de performance (bien que cela ne corresponde pas encore à ce que nous mesurons comme étant la performance humaine !). Du côté acoustique, nous utilisons une fusion des scores de trois modèles : un LSTM avec plusieurs entrées caractéristiques, un deuxième LSTM formé avec un apprentissage multitâche adversarial par locuteur et un troisième réseau résiduel (ResNet) avec 25 couches convolutives et des convolutions dilatées temporellement. Du côté de la modélisation linguistique, nous utilisons des LSTM au niveau des mots et des caractères ainsi que des modèles linguistiques convolutifs inspirés du WaveNet.