Une approche hiérarchique pour la génération de paragraphes descriptifs d'images

Les progrès récents en matière de légendage d'images ont rendu possible la génération de nouvelles phrases décrivant les images en langage naturel, mais la compression d'une image en une seule phrase ne permet de décrire le contenu visuel qu'en détail grossier. Bien que l'une des nouvelles approches de légendage, le légendage dense, puisse potentiellement décrire les images avec un niveau de détail plus fin en légendant de nombreuses régions au sein d'une image, elle est incapable de produire une histoire cohérente pour cette image. Dans cet article, nous surmontons ces limitations en générant des paragraphes complets pour décrire les images, ce qui permet de raconter des histoires détaillées et unifiées. Nous développons un modèle qui décompose à la fois les images et les paragraphes en leurs parties constitutives, détecte les régions sémantiques dans les images et utilise un réseau neuronal récurrent hiérarchique pour raisonner sur le langage. L'analyse linguistique confirme la complexité de la tâche de génération de paragraphes, et des expériences approfondies sur un nouveau jeu de données composé de paires d'images et de paragraphes démontrent l'efficacité de notre approche.