SentiStory : un modèle génératif à plusieurs couches sensible au sentiment pour la narration visuelle
La tâche de narration visuelle (VIST) vise à générer des histoires raisonnables, naturelles et cohérentes à partir de séquences d’images en entrée. Bien que de nombreux modèles d’apprentissage profond aient obtenu des résultats prometteurs, la plupart d’entre eux ne tirent pas directement parti de l’information émotionnelle des histoires. Dans cet article, nous proposons un modèle génératif sensible aux émotions pour la VIST, nommé SentiStory. Le cœur de SentiStory réside dans un module d’extraction multi-niveaux des sentiments (MLSEM). Pour une séquence d’images donnée, le niveau supérieur fournit des sentiments de granularité plus fine mais précis, tandis que le niveau inférieur du MLSEM extrait des sentiments de granularité plus fine mais généralement peu fiables. Ces deux niveaux sont combinés de manière stratégique afin de générer des concepts de sentiment visuel cohérents et riches, adaptés à la tâche de VIST. Les résultats obtenus par évaluation automatique et humaine démontrent que, grâce au MLSEM, SentiStory améliore significativement la génération d’histoires plus cohérentes et plus proches de celles produites par un humain.