2 个月前
RSPNet:无监督视频表征学习中的相对速度感知
Peihao Chen; Deng Huang; Dongliang He; Xiang Long; Runhao Zeng; Shilei Wen; Mingkui Tan; Chuang Gan

摘要
我们研究了无监督视频表征学习,旨在仅从未标记的视频中学习运动和外观特征,这些特征可以用于下游任务,如动作识别。然而,这项任务极具挑战性,原因在于:1)视频中的时空信息极为复杂;2)缺乏用于训练的标注数据。与静态图像的表征学习不同,构建一个合适的自监督任务来有效建模运动和外观特征非常困难。最近,一些研究尝试通过预测视频播放速度来学习视频表征。然而,为视频获取精确的速度标签并非易事。更重要的是,所学模型可能倾向于关注运动模式,从而无法很好地学习外观特征。在本文中,我们观察到相对播放速度与运动模式更为一致,因此能为表征学习提供更有效和稳定的监督。为此,我们提出了一种新的方法来感知播放速度,并利用两个视频片段之间的相对速度作为标签。通过这种方法,我们可以更好地感知速度并学习更优质的运动特征。此外,为了确保外观特征的学习效果,我们进一步提出了一项以外观为中心的任务,在该任务中强制模型感知两个视频片段之间的外观差异。实验结果表明,联合优化这两个任务可以持续提升在两项下游任务上的性能:即动作识别和视频检索。值得注意的是,在UCF101数据集上进行的动作识别实验中,我们在没有使用标注数据进行预训练的情况下达到了93.7%的准确率,这一结果优于使用ImageNet监督预训练的模型。代码和预训练模型可在https://github.com/PeihaoChen/RSPNet 获取。