il y a 2 mois

Distillation par ensemble au niveau des tokens pour la conversion graphème-phonème

Hao Sun; Xu Tan; Jun-Wei Gan; Hongzhi Liu; Sheng Zhao; Tao Qin; Tie-Yan Liu

Résumé

La conversion graphème-phonème (G2P) est une tâche importante dans les systèmes de reconnaissance automatique de la parole et de synthèse vocale. Récemment, la conversion G2P est considérée comme une tâche de séquence à séquence et modélisée par un cadre encodeur-décodeur basé sur des réseaux de neurones récurrents (RNN) ou des réseaux de neurones convolutifs (CNN). Cependant, les travaux précédents n'ont pas pris en compte les problèmes pratiques liés au déploiement d'un modèle G2P dans un système de production, tels que l'utilisation de données non étiquetées supplémentaires pour améliorer la précision, ainsi que la réduction de la taille du modèle pour le déploiement en ligne.Dans ce travail, nous proposons une distillation par assemblage au niveau des jetons pour la conversion G2P, qui peut (1) améliorer la précision en distillant les connaissances à partir de données non étiquetées supplémentaires, et (2) réduire la taille du modèle tout en maintenant une haute précision, deux aspects très pratiques et utiles dans un système de production en ligne. Nous utilisons une distillation des connaissances au niveau des jetons, ce qui donne une meilleure précision que l'équivalent au niveau des séquences. De plus, nous adoptons le Transformer plutôt que des modèles basés sur RNN ou CNN pour encore améliorer la précision de la conversion G2P.Les expériences menées sur le jeu de données CMUDict publiquement disponible et sur un jeu de données anglais interne démontrent l'efficacité de notre méthode proposée. En particulier, notre méthode atteint un taux d'erreur mot (WER) de 19,88 % sur le jeu de données CMUDict, surpassant les travaux précédents d'au moins 4,22 % WER et établissant ainsi de nouveaux résultats d'état de l'art.