HyperAIHyperAI

Command Palette

Search for a command to run...

Le système de reconnaissance vocale conversationnelle Microsoft 2016

W. Xiong; J. Droppo; X. Huang; F. Seide; M. Seltzer; A. Stolcke; D. Yu; G. Zweig

Résumé

Nous décrivons le système de reconnaissance vocale conversationnelle de Microsoft, dans lequel nous combinons les développements récents en modélisation acoustique et linguistique basée sur les réseaux neuronaux pour faire progresser l'état de l'art dans la tâche de reconnaissance du corpus Switchboard. Inspirés par les techniques d'ensemble en apprentissage automatique, le système utilise une gamme de réseaux neuronaux convolutifs et récurrents. La modélisation i-vecteur et l'entraînement sans treillis (lattice-free) MMI apportent des gains significatifs à toutes les architectures de modèles acoustiques. Le recalage du modèle linguistique avec plusieurs RNNLMs fonctionnant en avant et en arrière, ainsi que la combinaison de systèmes basée sur les probabilités postérieures des mots, offrent une amélioration de 20 %. Le meilleur système individuel utilise un modèle acoustique d'architecture ResNet avec recalage RNNLM, atteignant un taux d'erreur mot (word error rate) de 6,9 % sur la tâche Switchboard NIST 2000. Le système combiné présente un taux d'erreur de 6,2 %, représentant une amélioration par rapport aux résultats précédemment rapportés sur cette tâche de référence.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp