17 天前

基于时空图的关联推理用于视频摘要

{Jie zhou, Jiwen Lu, Yucheng Han, Wencheng Zhu}
摘要

本文提出了一种动态图建模方法,用于学习视频摘要任务中的时空表征。现有大多数视频摘要方法通常采用在ImageNet上预训练的深度模型提取图像级特征。与此不同,本文方法充分利用目标级和关系级信息,以捕捉视频中的时空依赖关系。具体而言,该方法首先在检测到的目标提议(object proposals)基础上构建空间图;随后,通过聚合空间图的表示信息,构建时间图。在此基础上,利用图卷积网络对空间图与时间图进行关系推理,进而提取用于重要性评分预测与关键帧选择的时空表征。为消除因节点高度连接所导致的关系冗余,本文进一步设计了一种自注意力边池化模块(self-attention edge pooling module),能够自动忽略图中无意义的关系连接。我们在两个主流基准数据集(SumMe和TVSum)上进行了大量实验。实验结果表明,所提出的方法在性能上显著优于现有的先进视频摘要方法。