HyperAIHyperAI

Command Palette

Search for a command to run...

Traduction vocale bout-en-bout avec des modèles pré-entraînés et des adaptateurs : UPC à IWSLT 2021

Gerard I. Gállego Ioannis Tsiamas Carlos Escolano José A. R. Fonollosa Marta R. Costa-jussà

Résumé

Cet article décrit la soumission du groupe de traduction automatique de l’UPC à la tâche de traduction automatique de parole en mode hors ligne de l’IWSLT 2021. Cette tâche consiste à concevoir un système capable de traduire des enregistrements audio en anglais extraits de conférences TED en texte allemand. Les systèmes soumis peuvent être soit en cascade, soit end-to-end, et utiliser une segmentation personnalisée ou fournie. Notre soumission est un système de traduction automatique de parole end-to-end, qui combine des modèles pré-entraînés (Wav2Vec 2.0 et mBART) avec des modules de couplage entre l’encodeur et le décodeur, et utilise une technique d’ajustement fin efficace, qui n’entraîne que 20 % des paramètres totaux. Nous montrons qu’ajouter un Adapter au système et le pré-entraîner permet d’accélérer la convergence et d’améliorer les performances finales, atteignant ainsi un score BLEU de 27,3 sur le jeu de test MuST-C. Notre modèle final, basé sur un ensemble de modèles, obtient un score BLEU de 28,22 sur le même ensemble. Notre soumission utilise également un algorithme de segmentation personnalisé qui exploite Wav2Vec 2.0 pré-entraîné pour détecter les périodes de texte non transcrivable, apportant une amélioration de 2,5 à 3 points BLEU sur le jeu de test IWSLT 2019 par rapport au résultat obtenu avec la segmentation fournie.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp