Intégration des caractéristiques visuelles globales dans la traduction automatique neuronale basée sur l'attention

Nous présentons des modèles de traduction neuronale (NMT) multimodaux basés sur l'attention qui intègrent des caractéristiques visuelles dans différentes parties du codage et du décodage. Nous utilisons des caractéristiques d'image globales extraites à l'aide d'un réseau neuronal convolutif pré-entraîné et les incorporons (i) en tant que mots dans la phrase source, (ii) pour initialiser l'état caché du codage, et (iii) comme données supplémentaires pour initialiser l'état caché du décodage. Dans nos expériences, nous évaluons comment ces différentes stratégies d'intégration des caractéristiques d'image globales se comparent et lesquelles donnent les meilleurs résultats. Nous étudions également l'impact de l'ajout de données multimodales et multilingues synthétiques et constatons que ces données supplémentaires ont un effet positif sur les modèles multimodaux. Nous rapportons de nouveaux résultats de pointe et nos meilleurs modèles améliorent considérablement un modèle de traduction statistique basée sur les phrases (PBSMT) comparable formé sur le jeu de données Multi30k selon tous les métriques évaluées. Selon nos connaissances, c'est la première fois qu'un modèle purement neuronal surpass significativement un modèle PBSMT sur toutes les métriques évaluées sur ce jeu de données.