
摘要
理解视频流中的动作与手势需要对不同时刻的空间内容进行时序推理,即所谓的时空(spatiotemporal, ST)建模。在本文综述中,我们对用于动作与手势识别任务的不同时空建模技术进行了对比分析。由于卷积神经网络(Convolutional Neural Networks, CNNs)已被证明是静态图像特征提取的有效工具,因此我们将在不同时间点由CNN提取的静态图像特征基础上,应用各类时空建模方法。所有方法均与CNN特征提取模块联合进行端到端训练,并在两个公开可用的基准数据集——Jester数据集和Something-Something数据集上进行评估。其中,Jester数据集包含多种动态与静态的手部手势,而Something-Something数据集则涵盖人类与物体交互的动作。这两个基准数据集的共同特点是,所设计的网络架构必须能够捕捉视频的完整时序信息,才能准确分类动作或手势。然而,出乎意料的是,实验结果表明,基于循环神经网络(Recurrent Neural Networks, RNN)的时空建模方法在性能上劣于其他方法,如全卷积架构。本文所提出方法的代码及预训练模型均已公开发布,可供研究者下载使用。