il y a 2 mois

Distiller des traductions avec une prise de conscience visuelle

Julia Ive; Pranava Madhyastha; Lucia Specia

Résumé

Les travaux précédents sur la traduction multimoale par machine ont montré que les informations visuelles ne sont nécessaires que dans des cas très spécifiques, par exemple en présence de mots ambigus où le contexte textuel n'est pas suffisant. En conséquence, les modèles ont tendance à apprendre à ignorer ces informations. Nous proposons une approche de traduction et d'affinement où les images ne sont utilisées que par un décodeur de seconde étape. Cette approche est formée conjointement pour générer une première version de traduction de qualité et pour améliorer cette version en (i) faisant un meilleur usage du contexte textuel de la langue cible (contextes gauche et droit) et (ii) en utilisant le contexte visuel. Cette méthode conduit à des résultats d'état de l'art. De plus, nous montrons qu'elle possède la capacité de corriger les erreurs ou les omissions de mots dans la langue source.