Systèmes hybrides ASR plus rapides, plus simples et plus précis grâce aux wordpieces

Dans ce travail, nous montrons tout d’abord que sur le benchmark largement utilisé LibriSpeech, notre système basé sur un transformateur et utilisant une classification temporelle connexionniste dépendante du contexte (CTC) atteint des résultats de pointe. Nous démontrons ensuite que l’utilisation de wordpieces comme unités de modélisation, combinée à l’entraînement CTC, permet de simplifier considérablement le pipeline d’ingénierie par rapport à l’entraînement classique par entropie croisée basé sur les trames, en éliminant toutes les étapes de bootstrap par GMM, de construction d’arbre de décision et d’alignement forcé, tout en atteignant un taux d’erreur sur les mots très compétitif. En outre, l’emploi de wordpieces comme unités de modélisation améliore significativement l’efficacité en temps d’exécution, car il devient possible d’utiliser un pas (stride) plus grand sans perte de précision. Nous confirmons ces résultats sur deux jeux de données internes VideoASR : l’allemand, qui présente des similitudes avec l’anglais en tant que langue fusante, et le turc, qui est une langue agglutinante.