Affinage des modèles d'apprentissage auto-supervisé pour une évaluation prononciation bout-en-bout
Les modèles d’évaluation automatique de la prononciation sont régulièrement utilisés dans les applications d’apprentissage des langues. Les méthodologies courantes pour l’évaluation de la prononciation reposent sur des approches basées sur des caractéristiques, telles que l’approche Goodness-of-Pronunciation (GOP), ou sur des modèles de reconnaissance vocale à base d’apprentissage profond pour évaluer la parole. Avec l’émergence des modèles « transformers », les modèles pré-entraînés d’apprentissage non supervisé contextuel (SSL, self-supervised learning) ont été exploités pour extraire des représentations contextuelles de la parole, offrant des améliorations sur diverses tâches ultérieures. Dans cette étude, nous proposons un modèle de régresseur end-to-end (E2E-R) pour la notation de la prononciation. L’E2E-R est entraîné selon un processus de deux étapes. Dans la première étape, le modèle SSL pré-entraîné est affiné sur une tâche de reconnaissance phonémique afin d’obtenir des représentations améliorées des phonèmes prononcés. Dans la deuxième étape, un apprentissage par transfert est utilisé pour construire un modèle de notation de la prononciation basé sur un réseau neuronal de type Siamese, qui compare les représentations des phonèmes prononcés aux embeddings des phonèmes canoniques et produit ainsi les scores finaux de prononciation. L’E2E-R atteint un coefficient de corrélation de Pearson (PCC) de 0,68, résultat presque équivalent à celui du modèle de pointe GOPT-PAII, tout en éliminant le besoin d’un entraînement supplémentaire sur des données orales natives, de l’ingénierie de caractéristiques ou de modules externes d’alignement forcé. À notre connaissance, ce travail constitue la première utilisation d’un modèle SSL pré-entraîné pour une évaluation de la prononciation au niveau phonémique end-to-end directement sur des signaux bruts d’ondes vocales.