il y a 11 jours

Traduction automatique multimodale par le biais de l'image et de la parole

Umut Sulubacak, Ozan Caglayan, Stig-Arne Grönroos, Aku Rouhe, Desmond Elliott, Lucia Specia, Jörg Tiedemann

Résumé

La traduction automatique multimodale consiste à tirer des informations provenant de plus d’un mode, sur la base de l’hypothèse que les modalités supplémentaires contiennent des perspectives alternatives utiles sur les données d’entrée. Les tâches les plus marquantes dans ce domaine sont la traduction de langage parlé, la traduction guidée par image et la traduction guidée par vidéo, qui exploitent respectivement les modalités audio et visuelle. Ces tâches se distinguent de leurs homologues monomodales — la reconnaissance vocale, la génération de légendes d’image et la génération de légendes de vidéo — par la nécessité pour les modèles de produire des sorties dans une langue différente. Ce survol examine les principales ressources de données disponibles pour ces tâches, les campagnes d’évaluation qui leur sont dédiées, l’état de l’art des approches end-to-end et des approches en pipeline, ainsi que les défis liés à l’évaluation des performances. La communication se termine par une discussion sur les perspectives de recherche futures dans ces domaines : la nécessité de données plus étendues et plus exigeantes, d’évaluations ciblées de la performance des modèles, ainsi que la prise en compte de la multimodalité à la fois dans l’espace d’entrée et dans l’espace de sortie.