Récit à partir d’un flux d’images en utilisant des graphes de scènes
Le récit visuel vise à générer une histoire à partir d’un flux d’images. La plupart des méthodes existantes consistent à représenter directement les images à l’aide de caractéristiques hautement abstraites extraites, ce qui rend la représentation peu intuitive et difficile à interpréter. Nous soutenons qu’une traduction de chaque image en une représentation sémantique basée sur un graphe, à savoir un graphe de scène, qui encode explicitement les objets et les relations détectés dans l’image, améliorerait significativement la représentation et la description des images. À cette fin, nous proposons une nouvelle architecture basée sur les graphes pour le récit visuel, en modélisant les relations à deux niveaux au sein des graphes de scène. Plus précisément, au niveau intra-image, nous utilisons un Réseau de Convolution de Graphe (GCN) afin d’enrichir les représentations locales fines des régions objet dans les graphes de scène. Pour modéliser davantage les interactions entre les images, au niveau inter-images, un Réseau de Convolution Temporel (TCN) est employé pour affiner les représentations des régions le long de la dimension temporelle. Ensuite, les représentations sensibles aux relations sont introduites dans une Unité Récurrente à Porte (GRU) munie d’un mécanisme d’attention afin de générer l’histoire. Des expériences ont été menées sur un jeu de données public dédié au récit visuel. Les résultats d’évaluation automatique et humaine indiquent que notre méthode atteint un niveau d’état de l’art.