12 天前

基于场景图的图像流叙事生成

{Xuanjing Huang, Qi Zhang, Piji Li, Zhongyu Wei, Ruize Wang}
摘要

视觉叙事旨在从图像序列中生成连贯的故事。现有大多数方法倾向于直接使用提取的高层特征来表征图像,这种方式缺乏直观性且难以解释。我们认为,将每张图像转化为基于图的语义表示——即场景图(scene graph),其中显式编码图像中检测到的物体及其相互关系,将有助于更有效地表征和描述图像内容。为此,我们提出了一种新型基于图的视觉叙事架构,通过建模场景图上的两层关系来实现。具体而言,在图像内部层面,我们采用图卷积网络(Graph Convolution Network, GCN)对场景图中物体的局部细粒度区域表示进行增强;为进一步建模图像之间的交互关系,在跨图像层面,引入时间卷积网络(Temporal Convolution Network, TCN)沿时间维度对区域表示进行优化。随后,将具备关系感知能力的表示输入带有注意力机制的门控循环单元(Gated Recurrent Unit, GRU)中,用于生成故事。我们在公开的视觉叙事数据集上进行了实验,自动评估与人工评估结果均表明,所提方法达到了当前最优水平。

基于场景图的图像流叙事生成 | 最新论文 | HyperAI超神经