Une approche de modélisation hiérarchique prenant en compte le contexte pour l'évaluation de la prononciation à multiples aspects et granularités

L'évaluation automatique de la prononciation (EAP) joue un rôle crucial dans la formation assistée par ordinateur à la prononciation (FAOP) lorsqu'il s'agit d'évaluer la compétence orale des apprenants d'une langue seconde (L2). Cependant, un inconvénient évident de la plupart des méthodes en usage est qu'elles parallélisent le processus de modélisation à travers différentes granularités de parole sans tenir compte des relations hiérarchiques et contextuelles locales entre elles. À cet égard, une nouvelle approche hiérarchique est proposée dans cet article pour l'EAP à plusieurs aspects et granularités. Plus précisément, nous introduisons tout d'abord le concept de supra-phonèmes afin d'explorer les traits sémantiques plus subtils des locuteurs L2. Ensuite, une couche de convolution séparable en profondeur est utilisée pour mieux encapsuler les indices contextuels locaux au niveau inframots. Enfin, nous utilisons un mécanisme de regroupement d'attention avec contrainte de score pour prédire les notes au niveau phrase et optimiser les modèles composants avec un cadre d'apprentissage multitâches (AMT). De nombreuses expériences menées sur un jeu de données de référence publiquement disponible, à savoir SpeechOcean762, démontrent l'efficacité de notre approche par rapport à certaines méthodes baselines avancées.