3 个月前

通过并行自上而下视觉与主题注意力实现连贯的视觉叙事

{Hanli Wang, Jinjing Gu}
通过并行自上而下视觉与主题注意力实现连贯的视觉叙事
摘要

视觉叙事旨在自动为给定的图像相册生成连贯的叙事段落。与单一图像的描述生成相比,该任务引入了更多新的挑战,主要体现在如何保持主题的一致性,以及如何生成多样化的表达来充分呈现相册中丰富的内容。现有的基于注意力机制的模型由于缺乏高层级的引导信息,常常导致生成的文本与图像所表达的主题产生偏差。此外,这些广泛采用的语言生成方法通常依赖标准的束搜索(beam search)策略,容易产生单调重复的描述。针对上述问题,本文提出了一种连贯视觉叙事(Coherent Visual Storytelling, CoVS)框架。具体而言,在编码阶段,设计了一种图像序列编码器,以高效提取输入相册的视觉特征;在解码阶段,构建了一种新颖的并行自顶向下视觉与主题注意力(Parallel Top-Down Visual and Topic Attention, PTDVTA)解码器,该解码器由主题感知神经网络、并行自顶向下注意力机制以及连贯语言生成器共同构成。其中,视觉注意力聚焦于对象的属性及其相互关系,而融合主题感知神经网络的主题注意力机制则有助于提升生成文本的主题连贯性。此外,为进一步增强生成故事的表达多样性,设计了一种基于n-gram汉明距离的短语束搜索算法(phrase beam search with n-gram Hamming diversity)。为验证所提CoVS框架的有效性,在VIST数据集上开展了大量实验,结果表明,CoVS能够以更自然的方式自动生成主题连贯且表达多样的叙事内容。同时,在BLEU-4和METEOR等指标上,CoVS优于当前最先进的基线方法,且在CIDEr和ROUGE-L等指标上保持了良好的表现。本工作的源代码可在 https://mic.tongji.edu.cn 获取。