摘要
视觉叙事(Visual Storytelling, VIST)任务旨在以图像序列作为输入,生成合理、类人且连贯的故事情节。尽管已有多种深度学习模型取得了令人瞩目的成果,但大多数方法并未直接利用故事中的情感信息。为此,本文提出一种面向VIST任务的情感感知生成模型——SentiStory。SentiStory的核心是一个多层情感提取模块(Multi-layered Sentiment Extraction Module, MLSEM)。对于给定的图像序列,MLSEM的高层能够提取出粗粒度但准确的情感信息,而低层则提取细粒度但通常可靠性较低的情感特征。通过策略性地融合这两层信息,SentiStory能够生成更为连贯且富含情感内涵的视觉叙事概念。自动评估与人工评估结果均表明,借助MLSEM,SentiStory在生成更连贯、更具人类自然感的故事方面取得了显著提升。