Évaluation hiérarchique de la prononciation avec attention multi-aspect

L'évaluation automatique de la prononciation est un élément clé d'un système de formation à la prononciation assistée par ordinateur. Pour fournir des retours détaillés, il est essentiel d'évaluer la prononciation à différents niveaux de granularité, tels que le phonème, le mot et l'unité discursive, en prenant en compte divers aspects comme la précision, la fluidité et l'exhaustivité. Cependant, les méthodes existantes multi-aspects et multi-niveaux de granularité prévoient simultanément tous les aspects à tous les niveaux de granularité ; elles ont donc du mal à capturer la hiérarchie linguistique entre phonèmes, mots et unités discursives. Cette limitation entraîne également une négligence des relations intimes entre les aspects au sein de la même unité linguistique. Dans cet article, nous proposons un modèle d'Évaluation Hiérarchique de la Prononciation avec Attention Multi-aspect (HiPAMA), qui représente hiérarchiquement les niveaux de granularité pour capturer directement leurs structures linguistiques et introduit une attention multi-aspect qui reflète les associations entre les aspects au même niveau afin de créer des représentations plus évocatrices. En obtenant des informations relationnelles tant du côté granulaire que du côté aspectuel, HiPAMA peut pleinement tirer parti de l'apprentissage multitâche. Les résultats expérimentaux remarquables sur les ensembles de données Speechocean762 démontrent la robustesse de HiPAMA, notamment dans les aspects difficiles à évaluer.