HyperAIHyperAI
il y a 17 jours

Itérative Pseudo-Labeling pour la Reconnaissance de Parole

Qiantong Xu, Tatiana Likhomanenko, Jacob Kahn, Awni Hannun, Gabriel Synnaeve, Ronan Collobert
Itérative Pseudo-Labeling pour la Reconnaissance de Parole
Résumé

Le pseudo-étiquetage a récemment montré un grand potentiel dans le domaine de la reconnaissance automatique de la parole (RAS) end-to-end. Nous étudions l’algorithme semi-supervisé appelé Itérative Pseudo-Labeling (IPL), qui effectue efficacement plusieurs itérations de pseudo-étiquetage sur des données non étiquetées au fur et à mesure de l’évolution du modèle acoustique. Plus précisément, IPL affine un modèle existant à chaque itération en utilisant à la fois des données étiquetées et un sous-ensemble de données non étiquetées. Nous analysons les composants principaux de IPL : la décodage avec un modèle de langage et l’augmentation de données. Nous démontrons ensuite l’efficacité de IPL en obtenant des taux d’erreur de mot (WER) au niveau de l’état de l’art sur les jeux de tests LibriSpeech, tant dans des conditions standard que dans des scénarios à faible ressource. Nous étudions également l’impact des modèles de langage entraînés sur des corpus différents, afin de montrer que IPL peut exploiter efficacement des textes supplémentaires. Enfin, nous mettons à disposition un nouveau corpus de texte de grande taille, spécifique au domaine (in-domain), qui ne chevauche pas les transcriptions d’entraînement de LibriSpeech, afin de stimuler la recherche dans le domaine de la RAS semi-supervisée à faible ressource.