摘要
在本研究中,我们提出了一种名为SegSum的新型无监督视频摘要方法,旨在通过生成视频精简(video skims)实现高效的视频摘要。当前大多数方法通常训练一个摘要生成器,为单个视频帧分配重要性得分,随后通过如核时间分割(Kernel Temporal Segmentation, KTS)等方法生成视频片段,并对帧得分进行聚合以计算片段得分。然而,这一范式限制了摘要生成器对关键信息的获取,尤其是视频片段中至关重要的时空关系。为解决该问题,我们提出的方法在深度学习模型的集中注意力(concentrated attention)架构基础上,将KTS获得的片段信息融入摘要生成器的学习过程,从而增强模型对时空上下文的理解能力。在实验中,我们在多个数据集及多种无监督视频摘要架构上对所提方法进行了广泛评估。通过引入集中注意力模块,SegSum在多个基准测试中取得了优异的F1分数,分别在SumMe数据集上达到54%,在TVSum数据集上达到62%。此外,即使采用简单的回归网络(Regressor network)作为核心结构,SegSum仍展现出具有竞争力的性能,生成的摘要结果与人工标注高度一致,充分验证了其有效性与鲁棒性。