17 天前

基于分层BERT语义引导的视觉叙事

{and Xianhui Liu, Jinjing Gu, Hanli Wang, Ruichao Fan}
摘要

视觉叙事任务旨在为照片相册自动生成连贯的叙述性段落,由于相册内容在语义复杂性和多样性方面存在显著挑战,该任务仍极具难度。此外,开放域照片相册涵盖广泛的主题,导致描述相册所用词汇和表达风格差异极大。针对上述问题,本文提出一种新型的师生协同视觉叙事框架,即基于分层BERT语义引导(Hierarchical BERT Semantic Guidance, HBSG)的框架。所提出的教师模块包含两个联合任务:词级别潜在主题生成与语义引导的句子生成。第一个任务旨在预测故事的潜在主题。由于缺乏真实标注的主题信息,本文采用基于视觉内容和标注叙述文本预训练的BERT模型来挖掘潜在主题,并将提取出的主题向量蒸馏至一个专门设计的图像-主题预测模型中。在语义引导的句子生成任务中,HBSG机制被引入以实现两个目标:其一,缩小不同主题间语言表达的复杂性差异,为此设计了融合视觉信息与语义信息的共注意力解码器,利用潜在主题引导生成与主题相关联的语言模型;其二,将句子语义作为在线外部语言知识教师模块,用于指导生成过程。最后,引入辅助损失函数,将语言知识有效转化为语言生成模型的内在能力。大量实验结果表明,所提出的HBSG框架在VIST测试集上显著优于现有最先进方法,充分验证了其有效性与优越性。