il y a 2 mois
Le système de reconnaissance vocale conversationnelle téléphonique IBM 2016
George Saon; Tom Sercu; Steven Rennie; Hong-Kwang J. Kuo

Résumé
Nous décrivons une série de techniques de modélisation acoustique et linguistique qui ont permis de réduire le taux d'erreur de mots (WER) de notre système LVCSR téléphonique conversationnel en anglais à un record de 6,6 % sur l'ensemble de test Switchboard du Hub5 2000. Du côté acoustique, nous utilisons une fusion des scores de trois modèles puissants : des réseaux récurrents avec des activations maxout, des réseaux convolutifs très profonds avec des noyaux 3x3, et des réseaux à mémoire à court et long terme bidirectionnels qui opèrent sur les caractéristiques FMLLR et i-vectors. Du côté de la modélisation linguistique, nous utilisons un modèle mis à jour « M » et des modèles de langage hiérarchiques basés sur les réseaux neuronaux.