
摘要
我们提出了一种简单而有效的方法,利用在大规模监督视频数据集上训练的深度三维卷积神经网络(3D ConvNets)进行时空特征学习。我们的研究结果有三个方面:1) 相比于二维卷积神经网络(2D ConvNets),三维卷积神经网络更适合进行时空特征学习;2) 具有所有层均使用小的3x3x3卷积核的同质架构是表现最佳的三维卷积神经网络架构之一;3) 我们学到的特征,即C3D(Convolutional 3D),结合简单的线性分类器,在四个不同的基准测试中超过了现有方法,并在另外两个基准测试中与当前最佳方法相当。此外,这些特征非常紧凑:仅用10个维度就能在UCF101数据集上达到52.8%的准确率,并且由于卷积神经网络的快速推理能力,计算效率也非常高。最后,这些特征在概念上非常简单,易于训练和使用。