Sur la limite de la reconnaissance de la parole conversationnelle en anglais

Dans notre travail précédent, nous avons démontré qu'un modèle d'encodeur-décodeur à attention unique est capable d'atteindre des résultats de pointe en reconnaissance de la parole conversationnelle. Dans cet article, nous améliorons encore davantage les résultats pour les corpus Switchboard 300 et 2000. En utilisant un optimiseur amélioré, des plongements vectoriels de locuteur et des représentations alternatives de la parole, nous réduisons les erreurs de reconnaissance de notre système LSTM sur Switchboard-300 de 4% relatif. La compensation du modèle décodeur par l'approche du rapport de probabilité permet une intégration plus efficace d'un modèle linguistique externe, et nous rapportons des taux d'erreur de reconnaissance (WER) de 5,9% et 11,5% sur les parties SWB et CHM de Hub5'00 avec des modèles LSTM très simples. Notre étude examine également le conformer récemment proposé et des modèles linguistiques plus avancés basés sur l'auto-attention. Dans l'ensemble, le conformer montre des performances similaires à celles du LSTM ; cependant, leur combinaison et la décodification avec un LM amélioré établissent un nouveau record sur Switchboard-300, avec des WER de 5,0% et 10,0% sur SWB et CHM. Nos résultats sont également confirmés sur Switchboard-2000, où un nouveau niveau d'excellence est atteint, pratiquement atteignant la limite du benchmark.