Command Palette
Search for a command to run...
长期时间卷积用于动作识别
长期时间卷积用于动作识别
Gül Varol Ivan Laptev Cordelia Schmid
摘要
典型的人类动作持续数秒,并表现出特定的空间-时间结构。近期的方法试图捕捉这一结构,并利用卷积神经网络学习动作表示。然而,这些表示通常是在少数视频帧的层面上进行学习,未能对动作的完整时间范围进行建模。在本研究中,我们使用具有长时时间卷积(Long-Term Temporal Convolutions, LTC)的神经网络来学习视频表示。我们证明了增加时间范围的LTC-CNN模型可以提高动作识别的准确性。此外,我们还研究了不同低级表示(如视频像素的原始值和光流矢量场)的影响,并展示了高质量光流估计对于学习准确的动作模型的重要性。我们在两个具有挑战性的人类动作识别基准数据集UCF101(92.7%)和HMDB51(67.2%)上报告了最先进水平的结果。