Encodage-décodage hiérarchique de graphe de scène pour la rédaction de paragraphes d'images
Lorsque nous, humains, décrivons une image à l’aide d’un long paragraphe, nous composons généralement implicitement un « scénario mental » que nous suivons ensuite pour produire le texte. Inspirés par ce processus, nous conférons au modèle moderne de génération de paragraphe à partir d’image basé sur l’architecture encodeur-décodeur la capacité d’imiter cette démarche en proposant un modèle Hiérarchique de Graphe de Scène Encodeur-Décodeur (HSGED), capable de générer des paragraphes cohérents et distinctifs. Plus précisément, nous utilisons le graphe de scène de l’image comme « scénario » afin d’intégrer des connaissances sémantiques riches, et surtout des contraintes hiérarchiques, dans le modèle. En particulier, nous concevons un réseau de neurones à récurrence basé sur le graphe de scène de phrase (SSG-RNN) pour générer des sujets au niveau des sous-graphes, lesquels contraindront ensuite un autre réseau, le SSG-RNN pour les mots (WSG-RNN), à produire les phrases correspondantes. Nous introduisons une attention non redondante dans le SSG-RNN afin d’améliorer la capacité à extraire des sujets à partir de sous-graphes rarement décrits, et une attention héritée dans le WSG-RNN pour générer des phrases plus ancrées dans le contenu visuel à partir des sujets abstraits ainsi extraits. Ces deux mécanismes contribuent à produire des paragraphes plus distinctifs. Un nouveau critère de perte efficace au niveau de la phrase est également proposé afin d’encourager la séquence des phrases générées à s’approcher de celle des paragraphes de référence. Nous validons HSGED sur le jeu de données Stanford Image Paragraph, et démontrons qu’il atteint non seulement un nouveau record mondial avec un score de 36,02 en CIDEr-D, mais qu’il génère également des paragraphes plus cohérents et plus distinctifs selon plusieurs métriques.