
摘要
视觉叙事是一项兼具创造性和挑战性的任务,旨在为一组图像序列自动生成类似故事的描述。以往的视觉叙事方法生成的描述缺乏连贯性,主要原因在于其采用词级序列生成方式,未能充分考虑句子间的依赖关系。为解决这一问题,本文提出一种新型的分层视觉叙事框架,该框架分别建模句子级与词级语义。我们采用基于Transformer的BERT模型获取句子和词的嵌入表示。随后,引入一种分层LSTM网络结构:底层LSTM接收来自BERT的句子向量表示,用于学习图像对应句子之间的依赖关系;顶层LSTM则负责生成相应的词向量表示,其输入来源于底层LSTM的输出。实验结果表明,所提模型在自动评估指标BLEU和CIDEr上均优于大多数相近的基线方法;同时,人工评估结果也进一步验证了该方法的有效性。