Command Palette
Search for a command to run...
Transformateur à double décodeur pour la reconnaissance automatique de parole et la traduction multilingue de parole en collaboration
Transformateur à double décodeur pour la reconnaissance automatique de parole et la traduction multilingue de parole en collaboration
Hang Le Juan Pino Changhan Wang Jiatao Gu Didier Schwab Laurent Besacier
Résumé
Nous introduisons le modèle dual-decoder Transformer, une nouvelle architecture de modèle qui effectue simultanément la reconnaissance automatique de parole (ASR) et la traduction multilingue de la parole (ST). Nos modèles s'appuient sur l'architecture originale du Transformer (Vaswani et al., 2017), mais comprennent deux décodeurs, chacun chargé d'une tâche spécifique (ASR ou ST). Notre contribution principale réside dans la manière dont ces décodeurs interagissent : un décodeur peut accéder à différentes sources d'information provenant de l'autre grâce à un mécanisme d'attention double. Nous proposons deux variantes de cette architecture, correspondant à deux niveaux différents de dépendance entre les décodeurs, désignées respectivement comme Transformers dual-decoder parallèles et croisés. Des expériences étendues sur le jeu de données MuST-C montrent que nos modèles surpassent les performances de traduction les plus élevées rapportées précédemment dans les configurations multilingues, tout en dépassant également les résultats bilingues un-à-un. En outre, nos modèles parallèles ne présentent aucun compromis entre les performances d'ASR et de ST par rapport à l'architecture multi-tâches classique. Le code source et les modèles pré-entraînés sont disponibles à l'adresse suivante : https://github.com/formiel/speech-translation.