Décodeur de mémoire hiérarchique pour la narration visuelle
La narration visuelle se concentre sur la génération de descriptions sémantiques afin de résumer le contenu visuel d’images ou de vidéos, par exemple dans les tâches de rédaction de légendes (visual captioning) ou de récit visuel (visual storytelling). Le défi principal réside dans la conception d’un décodeur capable de produire des descriptions précises correspondant fidèlement au contenu visuel. Les avancées récentes utilisent fréquemment un réseau de neurones récurrent (RNN), tel que le Long Short-Term Memory (LSTM), comme décodeur. Toutefois, les RNN sont sujets à la dilution des informations à long terme, ce qui affaiblit leur capacité à capturer des dépendances à longue portée. Des travaux récents ont démontré que les réseaux à mémoire (MemNet) possèdent un avantage significatif en matière de conservation des informations à long terme. Pourtant, leur utilisation comme décodeur dans la narration visuelle n’a pas encore été pleinement exploitée. Une partie de cette limitation provient de la difficulté de réaliser une décodage séquentiel multimodal avec MemNet. Dans cet article, nous proposons un nouveau décodeur à mémoire dédié à la narration visuelle. Plus précisément, pour obtenir une représentation multimodale améliorée, nous concevons tout d’abord une nouvelle méthode de fusion multimodale permettant une intégration complète des informations visuelles et lexicales. Ensuite, à partir de cette représentation fusionnée, durant le processus de décodage, nous construisons un décodeur basé sur MemNet composé de plusieurs couches de mémoire. En particulier, dans chaque couche, nous utilisons un ensemble de mémoire pour stocker les informations de décodage antérieures, et nous mettons en œuvre un mécanisme d’attention afin de sélectionner de manière adaptative les informations pertinentes pour la sortie courante. Parallèlement, nous utilisons également un ensemble de mémoire pour stocker les sorties de décodage de chaque couche de mémoire au pas de temps courant, tout en appliquant à nouveau un mécanisme d’attention pour sélectionner les informations associées. Ce décodeur permet ainsi de réduire la dilution des informations à long terme. Par ailleurs, l’architecture hiérarchique exploite efficacement les informations latentes de chaque couche, ce qui contribue à la génération de descriptions plus précises. Les résultats expérimentaux sur deux tâches de narration visuelle — la rédaction de légendes vidéo et le récit visuel — montrent que notre décodeur atteint des performances supérieures et surpassent celles du décodeur classique basé sur les RNN.