HyperAIHyperAI
il y a 11 jours

ViTA : Traduction visuo-linguistique par alignement des étiquettes d'objets

Kshitij Gupta, Devansh Gautam, Radhika Mamidi
ViTA : Traduction visuo-linguistique par alignement des étiquettes d'objets
Résumé

La traduction machine multimodale (MMT) enrichit le texte source grâce à des informations visuelles. Ce domaine a connu un regain d’intérêt ces dernières années, et plusieurs architectures ont été proposées dans cette direction. Toutefois, le manque de jeux de données de qualité limite la capacité à évaluer de manière précise l’apport de la modalité visuelle dans les systèmes de traduction. Dans ce travail, nous présentons notre système, désigné sous le nom d’équipe Volta, pour la tâche de traduction multimodale du WAT 2021, de l’anglais vers l’hindi. Nous participons également à la sous-tâche uniquement textuelle pour le même couple de langues, où nous utilisons mBART, un modèle préentraîné multilingue basé sur une architecture séquence-à-séquence. Pour la traduction multimodale, nous proposons d’enrichir l’entrée textuelle en transférant les informations visuelles dans le domaine textuel, en extrayant des étiquettes d’objets à partir de l’image. Nous étudions également la robustesse de notre système en dégradant systématiquement le texte source. Enfin, nous atteignons un score BLEU de 44,6 et 51,6 respectivement sur les ensembles de test et de défi de la tâche multimodale.

ViTA : Traduction visuo-linguistique par alignement des étiquettes d'objets | Articles de recherche récents | HyperAI