6 个月前

摘要

视觉叙事是一项兼具创造性和挑战性的任务，旨在为一组图像序列自动生成类似故事的描述。以往的视觉叙事方法生成的描述缺乏连贯性，主要原因在于其采用词级序列生成方式，未能充分考虑句子间的依赖关系。为解决这一问题，本文提出一种新型的分层视觉叙事框架，该框架分别建模句子级与词级语义。我们采用基于Transformer的BERT模型获取句子和词的嵌入表示。随后，引入一种分层LSTM网络结构：底层LSTM接收来自BERT的句子向量表示，用于学习图像对应句子之间的依赖关系；顶层LSTM则负责生成相应的词向量表示，其输入来源于底层LSTM的输出。实验结果表明，所提模型在自动评估指标BLEU和CIDEr上均优于大多数相近的基线方法；同时，人工评估结果也进一步验证了该方法的有效性。

源 PDF