
摘要
分析人类动作视频涉及理解视频帧之间的时序关系。当前最先进的动作识别方法依赖于传统的光流估计方法来预计算运动信息,以供卷积神经网络(CNNs)使用。这种两阶段的方法计算成本高昂、存储需求大且无法端到端训练。在本文中,我们提出了一种新颖的CNN架构,该架构隐式地捕捉相邻帧之间的运动信息。我们将这种方法命名为隐藏双流CNN,因为它仅以原始视频帧作为输入,并直接预测动作类别而无需显式计算光流。我们的端到端方法比两阶段基线快10倍。在四个具有挑战性的动作识别数据集(UCF101、HMDB51、THUMOS14和ActivityNet v1.2)上的实验结果表明,我们的方法显著优于之前的最佳实时方法。