HyperAIHyperAI
il y a 4 mois

Sur le choix de l'unité de modélisation pour la reconnaissance vocale séquence-à-séquence

Kazuki Irie; Rohit Prabhavalkar; Anjuli Kannan; Antoine Bruguier; David Rybach; Patrick Nguyen
Sur le choix de l'unité de modélisation pour la reconnaissance vocale séquence-à-séquence
Résumé

Dans le domaine de la reconnaissance conventionnelle de la parole, les modèles basés sur les phonèmes surpassent généralement les modèles basés sur les graphèmes pour les langues non phonétiques comme l'anglais. L'écart de performance entre ces deux types de modèles tend à se réduire lorsque la quantité de données d'entraînement augmente. Dans cette étude, nous examinons l'impact du choix de l'unité de modélisation pour les modèles encodeur-décodeur basés sur l'attention. Nous menons des expériences sur les tâches LibriSpeech 100 heures, 460 heures et 960 heures, en utilisant diverses unités cibles (phonème, graphème et sous-mot) ; dans toutes les tâches, nous constatons que les modèles basés sur les graphèmes ou les sous-mots surpassent systématiquement les modèles basés sur les phonèmes, même lorsqu'ils sont évalués sans lexique ni modèle linguistique externe. Nous explorons également la complémentarité des modèles : nous découvrons qu'il est possible d'améliorer les taux d'erreur en mots (WER) jusqu'à 9 % relativement en recalculant les listes N-meilleures générées par une ligne de base solide basée sur les sous-mots à l'aide soit du modèle phonémique, soit du modèle graphémique. Cependant, le recalcul d'une liste N-meilleures générée par le système phonémique apporte des améliorations limitées. Une analyse plus approfondie montre que les modèles basés sur les sous-mots produisent des hypothèses N-meilleures plus diversifiées et donc des WERs oracles plus faibles que les modèles phonémiques.