g2pW : Un BERT à Softmax Pondéré Conditionnel pour la Détermination des Polyphones en Mandarinet

La désambiguïsation polyphonique est la tâche la plus cruciale dans la conversion graphème-phonème (G2P) du mandarin. Les études précédentes ont abordé ce problème en utilisant des modèles de langage pré-entraînés, une sortie restreinte et des informations supplémentaires provenant de l'étiquetage morphosyntaxique (POS). Inspirés par ces stratégies, nous proposons une nouvelle approche appelée g2pW, qui adapte des poids softmax apprenables pour conditionner les sorties de BERT avec le caractère polyphonique d'intérêt et son étiquetage POS. Au lieu d'utiliser un masque rigide comme dans les travaux antérieurs, nos expériences montrent que l'apprentissage d'une fonction de pondération douce pour les phonèmes candidats améliore les performances. De plus, notre g2pW n'a pas besoin de modèles d'étiquetage POS pré-entraînés supplémentaires lorsqu'il utilise des étiquettes POS comme caractéristiques auxiliaires, car nous entraînons simultanément le modèle d'étiquetage POS avec l'encodeur unifié. Les résultats expérimentaux montrent que notre g2pW surpasse les méthodes existantes sur l'ensemble de données public CPP. Tous les codes, les poids du modèle et un package convivial sont disponibles au public.