SeamlessM4T : Traduction automatique massivement multilingue et multimodale

Quelles sont les conditions nécessaires pour créer le Poisson Babel, un outil capable d'aider les individus à traduire la parole entre deux langues quelconques ? Bien que des avancées récentes dans les modèles basés sur le texte aient étendu la couverture de la traduction automatique au-delà de 200 langues, les modèles unifiés de traduction vocale n'ont pas encore réalisé des progrès similaires. Plus précisément, les systèmes traditionnels de traduction vocale reposent sur des systèmes en cascade qui effectuent la traduction progressivement, rendant hors de portée les systèmes unifiés performants. Pour combler ces lacunes, nous présentons SeamlessM4T, un modèle unique qui prend en charge la traduction vocale vers vocale, la traduction vocale vers texte, la traduction texte vers voix, la traduction texte vers texte et la reconnaissance automatique de la parole pour jusqu'à 100 langues. Pour construire ce modèle, nous avons utilisé 1 million d'heures de données audio de parole ouvertes afin d'apprendre des représentations auto-supervisées de la parole avec w2v-BERT 2.0. Ensuite, nous avons créé un corpus multimodal de traductions vocales alignées automatiquement. Filtré et combiné avec des données labellisées par des humains et des données pseudo-labellisées, nous avons développé le premier système multilingue capable de traduire du et vers l'anglais pour la parole et le texte. Sur FLEURS, SeamlessM4T établit une nouvelle norme pour les traductions vers plusieurs langues cibles, réalisant une amélioration de 20% en termes de score BLEU par rapport à l'état de l'art précédent en traduction directe vocale vers texte. Comparé aux modèles en cascade robustes, SeamlessM4T améliore la qualité des traductions vers l'anglais de 1,3 points BLEU en traduction vocale vers texte et de 2,6 points ASR-BLEU en traduction vocale vers vocale. Testé pour sa robustesse, notre système offre une meilleure performance face aux bruits ambiants et aux variations entre locuteurs dans les tâches de traduction vocale vers texte par rapport au modèle actuel état de l'art. De manière cruciale, nous avons évalué SeamlessM4T sur le biais genré et ajouté une évaluation du niveau de toxicité pour assurer la sécurité des traductions. Enfin, toutes les contributions de ce travail sont open-source et accessibles à l'adresse suivante : https://github.com/facebookresearch/seamless_communication