Reconnaissance de la parole avec des réseaux neuronaux récurrents profonds

Les réseaux de neurones récurrents (RNNs) constituent un modèle puissant pour les données séquentielles. Les méthodes d'entraînement de bout en bout, telles que la classification temporelle connexionniste (Connectionist Temporal Classification), permettent d'entraîner des RNNs pour des problèmes d'étiquetage de séquences où l'alignement entrée-sortie est inconnu. La combinaison de ces méthodes avec l'architecture de mémoire à court et long terme (Long Short-term Memory, LSTM) des RNNs s'est avérée particulièrement fructueuse, offrant des résultats de pointe dans la reconnaissance d'écriture manuscrite cursive. Cependant, les performances des RNNs en reconnaissance vocale ont jusqu'à présent été décevantes, avec de meilleurs résultats obtenus par les réseaux profonds à alimentation avant. Cet article examine les \emph{réseaux de neurones récurrents profonds}, qui associent les multiples niveaux de représentation qui se sont révélés si efficaces dans les réseaux profonds à l'utilisation flexible du contexte à long terme qui caractérise les RNNs. Lorsqu'ils sont entraînés de bout en bout avec une régularisation appropriée, nous constatons que les RNNs LSTM profonds atteignent un taux d'erreur sur l'ensemble de test de 17,7 % sur le banc d'essai de reconnaissance phonétique TIMIT, ce qui constitue, selon nos connaissances, le meilleur score enregistré.