2 个月前

通过视频片段顺序预测实现的自监督时空学习

{ Yueting Zhuang, Di Xie, Jian Shao, Zhou Zhao, Jun Xiao, Dejing Xu}
通过视频片段顺序预测实现的自监督时空学习
摘要

我们提出了一种自监督的时空学习方法,该方法利用视频的时间顺序特性。通过预测从视频中打乱顺序的片段的实际排列顺序,我们的方法能够学习视频的时空表征,且无需依赖视频类别信息。这一特性使该技术具备利用无穷无尽未标注视频数据的潜力。尽管已有相关工作基于帧进行建模,但相较于帧,片段(clips)更能体现视频的动态特性,有助于降低顺序预测中的不确定性,因而更适合作为学习视频表征的单元。本方法采用三维卷积神经网络(3D CNN)提取片段特征,并基于这些特征进行实际顺序的预测。所学习到的表征通过最近邻检索实验进行评估,同时我们将训练得到的网络作为预训练模型,在动作识别任务上进行微调。实验中测试了三种不同类型的3D卷积神经网络,结果表明,与现有自监督方法相比,本方法取得了显著的性能提升。