2 个月前

通过视频旋转预测实现自监督时空特征学习

Longlong Jing; Xiaodong Yang; Jingen Liu; Yingli Tian
通过视频旋转预测实现自监督时空特征学习
摘要

深度神经网络的成功通常需要大量标注的训练数据,这在成本上昂贵且在规模上难以实现,尤其是在视频集合中。为了解决这一问题,本文提出了一种完全自监督的方法——3DRotNet,用于从未标注的视频中学习时空特征。该方法对所有视频应用一系列旋转操作,并定义了一个预训练任务,即预测这些旋转。在完成此任务的过程中,3DRotNet 实际上被训练来理解视频中的语义概念和运动。换句话说,它学会了视频的时空表示,这种表示可以迁移到小数据集上的视频理解任务中以提高性能。我们的广泛实验成功地证明了所提出的框架在动作识别方面的有效性,相比现有的自监督方法取得了显著的改进。通过从大规模数据集中自监督预训练的 3DRotNet,UCF101 数据集上的识别准确率提高了 20.4%,HMDB51 数据集上的识别准确率提高了 16.7%,相较于从零开始训练的模型。注释:- “spatiotemporal features” 翻译为“时空特征”,这是计算机视觉领域的常用术语。- “pretext task” 翻译为“预训练任务”,这是机器学习中的一个概念。- “spatiotemporal video representation” 翻译为“视频的时空表示”,这也是计算机视觉领域的术语。- UCF101 和 HMDB51 是两个常用的动作识别数据集名称,直接保留原文。

通过视频旋转预测实现自监督时空特征学习 | 最新论文 | HyperAI超神经