HyperAIHyperAI

Command Palette

Search for a command to run...

Reconnaissance de la parole avec des réseaux neuronaux récurrents profonds

Alex Graves Abdel-rahman Mohamed Geoffrey Hinton

Résumé

Les réseaux de neurones récurrents (RNNs) constituent un modèle puissant pour les données séquentielles. Les méthodes d'entraînement de bout en bout, telles que la classification temporelle connexionniste (Connectionist Temporal Classification), permettent d'entraîner des RNNs pour des problèmes d'étiquetage de séquences où l'alignement entrée-sortie est inconnu. La combinaison de ces méthodes avec l'architecture de mémoire à court et long terme (Long Short-term Memory, LSTM) des RNNs s'est avérée particulièrement fructueuse, offrant des résultats de pointe dans la reconnaissance d'écriture manuscrite cursive. Cependant, les performances des RNNs en reconnaissance vocale ont jusqu'à présent été décevantes, avec de meilleurs résultats obtenus par les réseaux profonds à alimentation avant. Cet article examine les \emph{réseaux de neurones récurrents profonds}, qui associent les multiples niveaux de représentation qui se sont révélés si efficaces dans les réseaux profonds à l'utilisation flexible du contexte à long terme qui caractérise les RNNs. Lorsqu'ils sont entraînés de bout en bout avec une régularisation appropriée, nous constatons que les RNNs LSTM profonds atteignent un taux d'erreur sur l'ensemble de test de 17,7 % sur le banc d'essai de reconnaissance phonétique TIMIT, ce qui constitue, selon nos connaissances, le meilleur score enregistré.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp