摘要
视觉叙事旨在生成语义描述,以概括图像或视频的视觉内容,例如视觉字幕生成(visual captioning)和视觉故事生成(visual storytelling)。其核心挑战在于如何设计一个解码器,以生成与视觉内容高度匹配的准确描述。近年来的研究多采用循环神经网络(Recurrent Neural Network, RNN),如长短期记忆网络(Long Short-Term Memory, LSTM)作为解码器。然而,RNN容易导致长期信息的稀释,从而削弱其捕捉长程依赖关系的能力。近期研究表明,记忆网络(Memory Network, MemNet)具备存储长期信息的优势,但作为视觉叙事任务中的解码器,其潜力尚未得到充分挖掘。部分原因在于,将MemNet应用于多模态序列解码存在技术难点。本文提出一种面向视觉叙事的新型记忆解码器。具体而言,为获得更优的多模态表示,我们首先设计了一种新的多模态融合方法,以充分整合视觉与语言信息。在此融合结果的基础上,在解码过程中,我们构建了一个基于MemNet的分层解码器,该解码器由多个记忆层组成。特别地,在每一层中,我们引入一个记忆集合来存储先前解码阶段的信息,并利用注意力机制自适应地选择与当前输出相关的信息。同时,我们还为每一层在当前时间步的解码输出维护一个记忆集合,并同样通过注意力机制筛选出相关的信息。这种设计有效缓解了长期信息的稀释问题。此外,分层架构能够充分利用各层所蕴含的潜在语义信息,有助于生成更准确的描述。在两项视觉叙事任务——视频字幕生成与视觉故事生成上的实验结果表明,所提出的解码器能够取得显著优于传统基于RNN的解码器的性能,验证了其有效性与优越性。