GLAC Net : Réseaux de Cascade d'Attention GLocale pour la Génération de Récits à Partir de Multiple Images

La tâche de génération d'histoires à partir de plusieurs images, comme le défi du jeu de données Visual Storytelling (VIST), consiste à composer plusieurs phrases cohérentes à partir d'une séquence donnée d'images. La principale difficulté réside dans la façon de générer des phrases spécifiques à chaque image tout en tenant compte du contexte global des images. Nous proposons ici un modèle de réseau de deep learning, GLAC Net, qui génère des histoires visuelles en combinant des mécanismes d'attention globale-locale (glocal) et de cascading contextuel. Le modèle intègre deux niveaux d'attention, soit au niveau de l'encodage global et au niveau des caractéristiques d'image, pour construire des phrases dépendantes des images. Bien que la configuration d'attention standard nécessite un grand nombre de paramètres, GLAC Net les implémente de manière très simple grâce à des connexions directes entre les sorties des encodeurs ou les caractéristiques d'image et les générateurs de phrases. La cohérence de l'histoire générée est encore améliorée par la transmission (cascading) sérielle des informations contenues dans la phrase précédente à la phrase suivante. Nous évaluons les performances de GLAC Net sur le jeu de données Visual Storytelling (VIST) et obtenons des résultats très compétitifs par rapport aux techniques les plus avancées actuellement disponibles. Notre code source et nos modèles pré-entraînés sont disponibles ici.