il y a 17 jours

Traduction vocale bout-en-bout avec des modèles pré-entraînés et des adaptateurs : UPC à IWSLT 2021

Gerard I. Gállego, Ioannis Tsiamas, Carlos Escolano, José A. R. Fonollosa, Marta R. Costa-jussà

Résumé

Cet article décrit la soumission du groupe de traduction automatique de l’UPC à la tâche de traduction automatique de parole en mode hors ligne de l’IWSLT 2021. Cette tâche consiste à concevoir un système capable de traduire des enregistrements audio en anglais extraits de conférences TED en texte allemand. Les systèmes soumis peuvent être soit en cascade, soit end-to-end, et utiliser une segmentation personnalisée ou fournie. Notre soumission est un système de traduction automatique de parole end-to-end, qui combine des modèles pré-entraînés (Wav2Vec 2.0 et mBART) avec des modules de couplage entre l’encodeur et le décodeur, et utilise une technique d’ajustement fin efficace, qui n’entraîne que 20 % des paramètres totaux. Nous montrons qu’ajouter un Adapter au système et le pré-entraîner permet d’accélérer la convergence et d’améliorer les performances finales, atteignant ainsi un score BLEU de 27,3 sur le jeu de test MuST-C. Notre modèle final, basé sur un ensemble de modèles, obtient un score BLEU de 28,22 sur le même ensemble. Notre soumission utilise également un algorithme de segmentation personnalisé qui exploite Wav2Vec 2.0 pré-entraîné pour détecter les périodes de texte non transcrivable, apportant une amélioration de 2,5 à 3 points BLEU sur le jeu de test IWSLT 2019 par rapport au résultat obtenu avec la segmentation fournie.