
摘要
本文提出了一种新型的监督式视频摘要方法。为克服现有基于RNN的摘要架构在建模长距离帧间依赖关系以及训练过程难以并行化方面的缺陷,所提出的模型采用自注意力机制来评估视频帧的重要性。与以往依赖注意力机制、通过观察完整帧序列来建模帧间依赖的方法不同,本方法结合了全局与局部多头注意力机制,能够在不同粒度层次上捕捉帧间依赖关系的多样化建模方式。此外,所采用的注意力机制引入了一个编码视频帧时间位置信息的组件,这对于生成高质量的视频摘要具有重要意义。在SumMe和TVSum两个数据集上的实验结果表明,所提出的模型在性能上优于现有的注意力机制方法,并在与其它先进监督式摘要方法的对比中展现出竞争力。通过针对核心组件(即全局与局部多头注意力机制协同绝对位置编码)的消融实验,进一步验证了各组件对整体摘要性能的相对贡献。