
摘要
尽管卷积神经网络(CNNs)在视频分析领域的应用取得了稳步进展,但其相对改进幅度远不及二维静态图像分类。目前存在三大主要挑战,分别是空间(图像)特征表示、时间信息表示以及模型/计算复杂度。Carreira和Zisserman最近的研究表明,从二维网络扩展并基于ImageNet预训练的三维CNNs可能是学习空间和时间表示的一种有前景的方法。然而,在模型/计算复杂度方面,三维CNNs比二维CNNs昂贵得多,并且容易过拟合。我们通过系统探索关键网络设计选择,力求在速度和准确性之间找到平衡,从而构建一个高效且有效的视频分类系统。具体而言,我们展示了可以用低成本的二维卷积替代许多三维卷积的可能性。令人惊讶的是,当在网络底部替换三维卷积时,可以实现最佳的结果(在速度和准确性方面),这表明在高层次语义特征上进行时间表示学习更为有用。我们的结论适用于具有非常不同属性的数据集。结合其他几种成本效益较高的设计方法,如分离的空间/时间卷积和特征门控机制,我们的系统在多个动作分类基准数据集(Kinetics、Something-something、UCF101和HMDB)以及两个动作检测(定位)基准数据集(JHMDB和UCF101-24)上均取得了极具竞争力的结果。