Vers la traduction face à face automatique

À la lumière des récentes avancées dans les systèmes de traduction automatique par machine, nous proposons une nouvelle approche que nous appelons « Traduction Face-to-Face ». Alors que la communication numérique d'aujourd'hui devient de plus en plus visuelle, nous soutenons qu'il existe un besoin de systèmes capables de traduire automatiquement une vidéo d'une personne parlant en langue A vers une langue cible B avec une synchronisation labiale réaliste. Dans ce travail, nous créons un pipeline automatique pour résoudre ce problème et démontrons son impact sur plusieurs applications pratiques. Tout d'abord, nous construisons un système de traduction parole-parole opérationnel en combinant plusieurs modules existants issus du traitement de la parole et du langage. Nous évoluons ensuite vers la « Traduction Face-to-Face » en intégrant un nouveau module visuel, LipGAN, pour générer des visages parlants réalistes à partir de l'audio traduit. L'évaluation quantitative de LipGAN sur l'ensemble de tests standard LRW montre qu'il surpasse significativement les approches existantes selon tous les critères standards. Nous soumettons également notre pipeline de Traduction Face-to-Face à plusieurs évaluations humaines et montrons qu'il peut considérablement améliorer l'expérience utilisateur globale pour la consommation et l'interaction avec du contenu multimodal à travers différentes langues. Le code source, les modèles et une vidéo démonstration sont rendus publiquement disponibles.Vidéo démonstration : https://www.youtube.com/watch?v=aHG6Oei8jF0 Code source et modèles : https://github.com/Rudrabha/LipGAN