HyperAIHyperAI

Command Palette

Search for a command to run...

Le système de reconnaissance vocale conversationnelle téléphonique IBM 2016

George Saon Tom Sercu Steven Rennie Hong-Kwang J. Kuo

Résumé

Nous décrivons une série de techniques de modélisation acoustique et linguistique qui ont permis de réduire le taux d'erreur de mots (WER) de notre système LVCSR téléphonique conversationnel en anglais à un record de 6,6 % sur l'ensemble de test Switchboard du Hub5 2000. Du côté acoustique, nous utilisons une fusion des scores de trois modèles puissants : des réseaux récurrents avec des activations maxout, des réseaux convolutifs très profonds avec des noyaux 3x3, et des réseaux à mémoire à court et long terme bidirectionnels qui opèrent sur les caractéristiques FMLLR et i-vectors. Du côté de la modélisation linguistique, nous utilisons un modèle mis à jour « M » et des modèles de langage hiérarchiques basés sur les réseaux neuronaux.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp
Le système de reconnaissance vocale conversationnelle téléphonique IBM 2016 | Articles | HyperAI