Récit visuel par la prédiction des embeddings de mots-clés dans les récits

Nous proposons un modèle d'apprentissage pour la tâche de narration visuelle. L'idée principale consiste à prédire des embeddings de mots-clés à partir des images, puis à utiliser conjointement ces embeddings et les caractéristiques d'images pour générer des phrases narratives. Nous utilisons les embeddings de noms choisis aléatoirement dans les récits de référence comme cibles pour l'apprentissage du prédicteur. Pour narrer une séquence d'images, nous utilisons les embeddings de mots-clés prédits et les caractéristiques d'images comme entrée conjointe dans un modèle seq2seq. Contrairement aux méthodes de pointe, le modèle proposé est simple dans sa conception, facile à optimiser, et obtient les meilleurs résultats sur la plupart des métriques d'évaluation automatique. En évaluation humaine, la méthode surpasse également les approches concurrentes.