HyperAIHyperAI

Command Palette

Search for a command to run...

Réseaux de neurones convolutionnels quaternioniens pour la reconnaissance automatique de la parole de bout en bout

Titouan Parcollet Ying Zhang Mohamed Morchid Chiheb Trabelsi Georges Linares Renato De Mori Yoshua Bengio

Résumé

Récemment, le modèle de classification temporelle connexionniste (CTC) couplé avec des réseaux neuronaux récurrents (RNN) ou des réseaux neuronaux convolutifs (CNN) a facilité l'entraînement des systèmes de reconnaissance vocale de manière bout à bout. Cependant, dans les modèles à valeurs réelles, les composants temporels tels que les énergies de la banque de filtres mel et les coefficients cepstraux qui en sont dérivés, ainsi que leurs dérivées du premier et du deuxième ordre, sont traités comme des éléments individuels, alors qu'une alternative naturelle serait de traiter ces composants comme des entités composées. Nous proposons de regrouper ces éléments sous forme de quaternions et de les traiter en utilisant l'algèbre quaternionique établie. Les nombres quaternions et les réseaux neuronaux quaternioniques ont montré leur efficacité pour traiter des entrées multidimensionnelles comme des entités, coder les dépendances internes et résoudre de nombreuses tâches avec moins de paramètres d'apprentissage que les modèles à valeurs réelles. Cet article propose d'intégrer plusieurs vues de caractéristiques dans un réseau neuronal convolutif à valeurs quaternioniques (QCNN) pour être utilisé dans une cartographie séquence-à-séquence avec le modèle CTC. Des résultats prometteurs sont rapportés en utilisant des QCNN simples dans des expériences de reconnaissance phonétique sur le corpus TIMIT. Plus précisément, les QCNN obtiennent un taux d'erreur phonétique (PER) inférieur avec moins de paramètres d'apprentissage qu'un modèle concurrent basé sur des CNN à valeurs réelles.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp
Réseaux de neurones convolutionnels quaternioniens pour la reconnaissance automatique de la parole de bout en bout | Articles | HyperAI