Décodage Doublement Attentif pour la Traduction Neuronale Multimodale

Nous présentons un modèle de traduction automatique neuronale multi-modale dans lequel un décodeur doublement attentif intègre naturellement des caractéristiques visuelles spatiales obtenues à l'aide de réseaux neuronaux convolutifs pré-entraînés, comblant ainsi l'écart entre la description d'images et la traduction. Notre décodeur apprend à porter son attention sur les mots de la langue source et sur les parties d'une image de manière indépendante grâce à deux mécanismes d'attention distincts lorsqu'il génère des mots dans la langue cible. Nous constatons que notre modèle peut exploiter efficacement non seulement des données multimodales en domaine spécifique traduites en retour, mais aussi de grands corpus de traduction automatique (MT) textuels en domaine général. Nous rapportons également des résultats à l'état de l'art sur l'ensemble de données Multi30k.