2 个月前

用于无监督视频摘要的判别特征学习

Yunjae Jung; Donghyeon Cho; Dahun Kim; Sanghyun Woo; In So Kweon
用于无监督视频摘要的判别特征学习
摘要

在本文中,我们探讨了无监督视频摘要问题,旨在从输入视频中自动提取关键镜头。具体而言,基于我们的实证观察,我们解决了两个核心问题:(i) 由于每帧输出重要性分数分布平坦而导致的特征学习效果不佳;(ii) 处理长视频输入时的训练难度。为了解决第一个问题,我们提出了一种简单而有效的正则化损失项——方差损失。所提出的方差损失允许网络预测每帧的输出分数时具有较高的差异性,从而实现有效的特征学习并显著提升模型性能。对于第二个问题,我们设计了一种新颖的双流网络,称为分块和步进网络(Chunk and Stride Network, CSNet),该网络利用视频特征的局部(分块)和全局(步进)时间视图。与现有方法相比,我们的CSNet在处理长视频时能提供更好的摘要结果。此外,我们引入了一种注意力机制来处理视频中的动态信息。通过广泛的消融研究,我们展示了所提方法的有效性,并证明我们的最终模型在两个基准数据集上取得了新的最先进结果。

用于无监督视频摘要的判别特征学习 | 最新论文 | HyperAI超神经