1 个月前
端到端密集视频描述生成的掩码变换器方法
Luowei Zhou; Yingbo Zhou; Jason J. Corso; Richard Socher; Caiming Xiong

摘要
密集视频字幕生成的目标是为未剪辑视频中的所有事件生成文本描述。这不仅涉及事件的检测,还包括对这些事件的描述。因此,以往所有关于密集视频字幕生成的方法都是通过构建两个模型来解决这两个子问题,即事件提议模型和字幕生成模型。这些模型要么分别训练,要么交替训练。然而,这种做法阻碍了语言描述对事件提议的直接影响,而这种影响对于生成准确的描述至关重要。为了解决这一问题,我们提出了一种端到端的变压器模型用于密集视频字幕生成。该模型的编码器将视频编码为适当的表示形式。提议解码器从编码中使用不同的锚点解码以形成视频事件提议。字幕生成解码器则采用一个掩码网络,限制其在编码特征上的注意力集中在提议事件上。该掩码网络将事件提议转换为可微分的掩码,从而确保在训练过程中提议与字幕生成之间的一致性。此外,我们的模型还采用了自注意力机制,使得在编码过程中可以使用高效的非递归结构,并带来性能提升。我们在ActivityNet Captions和YouCookII数据集上展示了该端到端模型的有效性,在这两个数据集上分别达到了10.12和6.58的METEOR分数。