2 个月前
通过预测运动和外观统计信息的自监督时空表征学习方法研究视频数据
Jiangliu Wang; Jianbo Jiao; Linchao Bao; Shengfeng He; Yunhui Liu; Wei Liu

摘要
我们研究了在没有人工标注标签的情况下进行视频表征学习的问题。尽管先前的研究通过设计新颖的自监督任务利用视频数据来解决这一问题,但所学到的特征大多仅基于单帧,无法适用于许多需要时空特征的视频分析任务。本文提出了一种新的自监督方法,用于学习视频表征中的时空特征。受双流方法在视频分类中成功应用的启发,我们提出通过回归空间和时间维度上的运动和外观统计量来学习视觉特征,仅使用输入的视频数据。具体而言,我们从空间域和时间域中的简单模式中提取统计概念(如快速运动区域及其主要方向、时空颜色多样性、主要颜色等)。与之前那些即使对人类来说也难以解决的拼图任务不同,我们的方法符合人类固有的视觉习惯,因此更容易解答。我们使用C3D进行了广泛的实验以验证所提方法的有效性。实验结果表明,当应用于视频分类任务时,我们的方法可以显著提高C3D的性能。代码可在https://github.com/laura-wang/video_repres_mas 获取。