
摘要
视觉叙事(Visual Storytelling, VST)任务旨在以图像序列作为输入,生成一段合理且连贯的段落级故事。与仅对图像内容进行直接、字面描述的图像字幕(caption)不同,VST任务中的故事往往包含大量图像中并未直接呈现的想象性概念。这要求AI代理能够基于隐含的常识知识进行推理与联想,从而生成能够合理描述图像序列的叙事内容。为此,本文提出一种基于常识驱动的生成模型,旨在从外部知识库中引入关键的常识信息,以增强视觉叙事的合理性与连贯性。我们的方法首先从知识库中提取一组候选知识图谱,随后采用一种精心设计的视觉感知方向编码机制,有效融合最具信息量的常识知识。此外,我们在解码过程中力求最大化输出文本内部的语义相似性,以进一步提升生成文本的连贯性。实验结果表明,该方法在性能上显著超越现有最先进系统,CIDEr得分实现了29%的相对提升。在引入额外的常识信息与语义相关性目标函数后,生成的故事在多样性与连贯性方面均得到进一步增强。