16 天前

通过恢复性评分将自监督学习引入无监督视频摘要。

{Parvaneh Saeedi, Mehryar Abbasi}
摘要

本文提出了一种全新的无监督视频摘要生成方法。我们的方法首先训练一个Transformer编码器模型,通过自监督方式利用部分帧被遮蔽的视频作为输入,实现对缺失帧的重建。随后,我们设计了一种算法,利用上述训练好的编码器为视频中的每一帧计算重要性得分。这些帧的重要性得分被用于生成最终的视频摘要。实验结果表明,模型在遮蔽帧视频上的重建损失与视频中剩余帧的代表性之间存在显著相关性。我们在TVSum和SumMe两个标准数据集上验证了所提方法的有效性,结果表明其性能优于现有的最先进(SOTA)方法。此外,与基于生成对抗学习的SOTA技术相比,我们的方法在训练过程中表现出更高的稳定性。本文的源代码已公开发布。