il y a 2 mois

Réseaux de neurones convolutionnels quaternioniens pour la reconnaissance automatique de la parole de bout en bout

Titouan Parcollet; Ying Zhang; Mohamed Morchid; Chiheb Trabelsi; Georges Linarès; Renato De Mori; Yoshua Bengio

Résumé

Récemment, le modèle de classification temporelle connexionniste (CTC) couplé avec des réseaux neuronaux récurrents (RNN) ou des réseaux neuronaux convolutifs (CNN) a facilité l'entraînement des systèmes de reconnaissance vocale de manière bout à bout. Cependant, dans les modèles à valeurs réelles, les composants temporels tels que les énergies de la banque de filtres mel et les coefficients cepstraux qui en sont dérivés, ainsi que leurs dérivées du premier et du deuxième ordre, sont traités comme des éléments individuels, alors qu'une alternative naturelle serait de traiter ces composants comme des entités composées. Nous proposons de regrouper ces éléments sous forme de quaternions et de les traiter en utilisant l'algèbre quaternionique établie. Les nombres quaternions et les réseaux neuronaux quaternioniques ont montré leur efficacité pour traiter des entrées multidimensionnelles comme des entités, coder les dépendances internes et résoudre de nombreuses tâches avec moins de paramètres d'apprentissage que les modèles à valeurs réelles. Cet article propose d'intégrer plusieurs vues de caractéristiques dans un réseau neuronal convolutif à valeurs quaternioniques (QCNN) pour être utilisé dans une cartographie séquence-à-séquence avec le modèle CTC. Des résultats prometteurs sont rapportés en utilisant des QCNN simples dans des expériences de reconnaissance phonétique sur le corpus TIMIT. Plus précisément, les QCNN obtiennent un taux d'erreur phonétique (PER) inférieur avec moins de paramètres d'apprentissage qu'un modèle concurrent basé sur des CNN à valeurs réelles.