HyperAIHyperAI

Command Palette

Search for a command to run...

Affinage des modèles d'apprentissage auto-supervisé pour une évaluation prononciation bout-en-bout

Hanaa Bayomi Khaled T. Wassif Aly A. Fahmy Ahmed I. Zahran

Résumé

Les modèles d’évaluation automatique de la prononciation sont régulièrement utilisés dans les applications d’apprentissage des langues. Les méthodologies courantes pour l’évaluation de la prononciation reposent sur des approches basées sur des caractéristiques, telles que l’approche Goodness-of-Pronunciation (GOP), ou sur des modèles de reconnaissance vocale à base d’apprentissage profond pour évaluer la parole. Avec l’émergence des modèles « transformers », les modèles pré-entraînés d’apprentissage non supervisé contextuel (SSL, self-supervised learning) ont été exploités pour extraire des représentations contextuelles de la parole, offrant des améliorations sur diverses tâches ultérieures. Dans cette étude, nous proposons un modèle de régresseur end-to-end (E2E-R) pour la notation de la prononciation. L’E2E-R est entraîné selon un processus de deux étapes. Dans la première étape, le modèle SSL pré-entraîné est affiné sur une tâche de reconnaissance phonémique afin d’obtenir des représentations améliorées des phonèmes prononcés. Dans la deuxième étape, un apprentissage par transfert est utilisé pour construire un modèle de notation de la prononciation basé sur un réseau neuronal de type Siamese, qui compare les représentations des phonèmes prononcés aux embeddings des phonèmes canoniques et produit ainsi les scores finaux de prononciation. L’E2E-R atteint un coefficient de corrélation de Pearson (PCC) de 0,68, résultat presque équivalent à celui du modèle de pointe GOPT-PAII, tout en éliminant le besoin d’un entraînement supplémentaire sur des données orales natives, de l’ingénierie de caractéristiques ou de modules externes d’alignement forcé. À notre connaissance, ce travail constitue la première utilisation d’un modèle SSL pré-entraîné pour une évaluation de la prononciation au niveau phonémique end-to-end directement sur des signaux bruts d’ondes vocales.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp
Affinage des modèles d'apprentissage auto-supervisé pour une évaluation prononciation bout-en-bout | Articles | HyperAI