Attention à mémoire à valeurs et clés interactive pour la génération de légendes paragraphe d’image

L’étiquetage par paragraphes d’images (IPC) vise à générer un paragraphe détaillé décrivant le contenu visuel d’une image. Des progrès significatifs ont été réalisés grâce aux réseaux neuronaux profonds, dans lesquels le mécanisme d’attention joue un rôle essentiel. Toutefois, les mécanismes d’attention classiques ont tendance à ignorer les informations d’alignement passées, ce qui entraîne fréquemment des problèmes de redondance dans les descriptions ou des descriptions incomplètes. Dans cet article, nous proposons un modèle d’attention augmentée par mémoire à clé-valeur interactif pour le captioning de paragraphes d’images (IMAP), permettant de suivre l’historique d’attention (c’est-à-dire les informations sur la couverture des objets saillants) tout en tenant compte de l’évolution de l’état du décodeur, afin d’éviter la génération de descriptions répétitives ou incomplètes. Par ailleurs, nous introduisons un mécanisme d’attention adaptatif permettant une alignement dynamique entre les régions d’image et les mots du texte descriptif : une région d’image peut être associée à un nombre arbitraire de mots, tout comme un mot peut s’attacher à un nombre arbitraire de régions d’image. Des expériences étendues sur un jeu de données de référence (à savoir Stanford) démontrent l’efficacité de notre modèle IMAP.