Hide-and-Tell : Apprendre à relier des séries photographiques pour la narration visuelle

L’art du récit visuel consiste à créer une courte histoire à partir d’une séquence d’images. Contrairement à la génération de légendes visuelles existantes, qui se limitent à des descriptions factuelles, le récit visuel vise à intégrer non seulement des descriptions objectives, mais aussi une narration humaine et une sémantique riche. Toutefois, le jeu de données VIST ne comprend qu’un petit nombre fixe d’images par histoire. Par conséquent, le défi principal du récit visuel réside dans la capacité à combler les lacunes visuelles entre les images par une narration imaginative et cohérente. Dans cet article, nous proposons d’apprendre explicitement à imaginer une intrigue narrative qui comble ces lacunes visuelles. Lors de l’entraînement, une ou plusieurs images sont aléatoirement omises de la pile d’entrée, et nous entraînons le réseau à produire une histoire complète et crédible malgré la disparition d’images. En outre, nous introduisons un modèle hide-and-tell spécifiquement conçu pour le récit visuel, capable d’apprendre des relations non locales à travers les séquences d’images, et de raffiner et améliorer les modèles conventionnels basés sur les RNN. Nos expériences montrent que notre approche hide-and-tell, ainsi que notre architecture réseau, sont effectivement efficaces pour le récit visuel, et que notre modèle surpasse les méthodes de pointe précédentes selon les métriques automatiques. Enfin, nous illustrons qualitativement la capacité apprise du modèle à interpoler une intrigue narrative à travers les lacunes visuelles.