HyperAIHyperAI
il y a 2 mois

Atteindre la parité humaine dans la reconnaissance vocale conversationnelle

W. Xiong; J. Droppo; X. Huang; F. Seide; M. Seltzer; A. Stolcke; D. Yu; G. Zweig
Atteindre la parité humaine dans la reconnaissance vocale conversationnelle
Résumé

La reconnaissance de la parole conversationnelle a servi de tâche phare en matière de reconnaissance de la parole depuis la publication du corpus Switchboard dans les années 1990. Dans cet article, nous mesurons le taux d'erreur humain sur l'ensemble de test NIST 2000 largement utilisé, et constatons que notre système automatisé le plus récent a atteint une parité avec l'humain. Le taux d'erreur des transcrivains professionnels est de 5,9 % pour la partie Switchboard des données, où des paires de personnes nouvellement rencontrées discutent d'un sujet assigné, et de 11,3 % pour la partie CallHome, où des amis et des membres de la famille ont des conversations ouvertes. Dans les deux cas, notre système automatisé établit un nouveau niveau d'excellence et dépasse légèrement la référence humaine, atteignant respectivement des taux d'erreur de 5,8 % et 11,0 %. La clé de la performance de notre système réside dans l'utilisation de diverses architectures de modèles acoustiques convolutifs et LSTM (Long Short-Term Memory), combinées à une nouvelle méthode d'adoucissement spatial et à une formation acoustique MMI sans treillis (lattice-free MMI), ainsi qu'à plusieurs approches de modélisation linguistique par réseaux neuronaux récurrents et à une utilisation systématique de la combinaison des systèmes.

Atteindre la parité humaine dans la reconnaissance vocale conversationnelle | Articles de recherche récents | HyperAI