XLS-R : Apprentissage de représentations vocales multi-lingues auto-supervisé à grande échelle

Cet article présente XLS-R, un modèle à grande échelle pour l’apprentissage de représentations vocales multilingues basé sur wav2vec 2.0. Nous avons entraîné des modèles atteignant jusqu’à 2 milliards de paramètres sur près de 500 000 heures d’audio vocal publique, couvrant 128 langues — une quantité de données publiques d’un ordre de grandeur supérieure à celle utilisée dans le plus grand travail antérieur connu. Notre évaluation couvre un large éventail de tâches, de domaines, de régimes de données et de langues, tant à ressources abondantes qu’à ressources limitées. Sur le benchmark de traduction automatique de parole CoVoST-2, nous améliorons l’état de l’art précédent de 7,4 points BLEU en moyenne sur 21 directions de traduction vers l’anglais. Pour la reconnaissance automatique de parole, XLS-R dépasse les meilleures approches antérieures sur les jeux de données BABEL, MLS, CommonVoice et VoxPopuli, réduisant les taux d’erreur de manière relative de 14 à 34 % en moyenne. XLS-R établit également un nouveau record sur le benchmark VoxLingua107 pour l’identification linguistique. En outre, nous démontrons qu’avec une taille de modèle suffisante, l’entraînement préalable multilingue peut surpasser l’entraînement préalable uniquement en anglais lors de la traduction de la parole anglaise vers d’autres langues — un cadre qui favorise traditionnellement l’entraînement monolingue. Nous espérons que XLS-R contribuera à améliorer les performances des tâches de traitement de la parole pour de nombreuses autres langues du monde.