12 天前

基于集中注意力并考虑视频帧独特性与多样性的视频摘要方法

{Ioannis Patras, Vasileios Mezaris, Georgios Balaouras, Evlampios Apostolidis}
基于集中注意力并考虑视频帧独特性与多样性的视频摘要方法
摘要

在本研究中,我们提出了一种新的无监督视频摘要生成方法。为克服现有无监督视频摘要方法中存在的若干局限性——包括生成器-判别器架构训练不稳定、依赖循环神经网络(RNN)建模长距离帧间依赖关系,以及RNN类网络架构难以实现并行化训练等问题——所提出的方法完全基于自注意力机制来评估视频帧的重要性。与仅依赖全局注意力机制建模帧间依赖的传统方法不同,本方法引入了一种集中注意力机制,能够聚焦于注意力矩阵主对角线区域的非重叠块,并通过提取和利用与视频帧独特性及多样性相关的信息,丰富已有表征。由此,该方法能够更准确地判断视频不同部分的重要性,同时显著减少可学习参数的数量。在SumMe和TVSum两个基准数据集上的实验评估表明,所提方法在性能上具有竞争力,能够生成与人类偏好高度接近的视频摘要。进一步的消融实验聚焦于所引入的关键组件——即集中注意力机制与基于注意力机制的帧独特性与多样性估计相结合——验证了这些组件对整体摘要性能的相对贡献。

基于集中注意力并考虑视频帧独特性与多样性的视频摘要方法 | 最新论文 | HyperAI超神经