Apprentissage par renforcement structuré hiérarchiquement pour la génération de récits visuels cohérents sur le plan thématique

Nous proposons une approche d'apprentissage par renforcement structurée hiérarchiquement pour relever les défis de la planification dans la génération d'histoires cohérentes à plusieurs phrases pour la tâche de narration visuelle. Dans notre cadre, la tâche de générer une histoire à partir d'une séquence d'images est répartie entre un décodeur hiérarchique à deux niveaux. Le décodeur de haut niveau construit un plan en générant un concept sémantique (c'est-à-dire, un sujet) pour chaque image de la séquence. Le décodeur de bas niveau génère une phrase pour chaque image en utilisant un réseau compositionnel sémantique, qui conditionne efficacement la génération des phrases en fonction du sujet. Les deux décodeurs sont entraînés conjointement et bout à bout grâce à l'apprentissage par renforcement. Nous évaluons notre modèle sur le jeu de données VIST (Visual Storytelling). Les résultats empiriques issus des évaluations automatiques et humaines montrent que l'entraînement renforcé structuré hiérarchiquement proposé atteint des performances significativement meilleures comparées à une ligne de base solide d'apprentissage profond par renforcement.