
摘要
本文提出了一种新颖的模型,该模型包含一个分层的照片场景编码器和一个重构器,用于相册故事生成任务。照片场景编码器由两个子编码器组成,即照片编码器和场景编码器,这两个子编码器堆叠在一起并以分层的方式运行,以充分利用相册内照片的结构信息。具体而言,照片编码器为每张照片生成语义表示,同时利用它们之间的时序关系。场景编码器则依赖于获得的照片表示,负责检测场景变化并生成场景表示。随后,解码器动态且有选择性地总结编码后的照片和场景表示,生成一系列相册表示。基于这些相册表示,生成一个由多个连贯句子组成的故事。为了从相册中充分提取有用的语义信息,我们引入了一个重构器,根据解码器的隐藏状态来重现总结的相册表示。所提出的模型可以进行端到端训练,这在公共视觉故事生成(Visual Storytelling, VIST)数据集上的性能优于现有最佳方法。消融实验进一步证明了所提出的分层照片场景编码器和重构器的有效性。