Modèle de variable latente pour la traduction multi-modale

Dans cette étude, nous proposons de modéliser l'interaction entre les caractéristiques visuelles et textuelles pour la traduction neuronale multi-modale (MMT) à travers un modèle à variables latentes. Cette variable latente peut être considérée comme une représentation stochastique multi-modale d'une image et de sa description dans une langue étrangère. Elle est utilisée dans un décodeur de la langue cible et également pour prédire les caractéristiques de l'image. Il est important de noter que notre formulation du modèle utilise des entrées visuelles et textuelles pendant l'entraînement, mais ne nécessite pas la disponibilité des images lors des tests. Nous montrons que notre formulation MMT à variables latentes améliore considérablement les performances par rapport à des baselines robustes, notamment une approche d'apprentissage multi-tâches (Elliott et Kádár, 2017) et une approche d'auto-encodeur variationnel conditionnel (Toyama et al., 2016). Enfin, nous démontrons des améliorations dues : (i) à la prédiction des caractéristiques de l'image en plus de n'y conditionner que le modèle, (ii) à l'imposition d'une contrainte sur la quantité minimale d'information encodée dans la variable latente, et (iii) au fait d'entraîner le modèle sur des descriptions d'images supplémentaires en langue cible (c'est-à-dire des données synthétiques).