2 个月前

时序片段网络在视频动作识别中的应用

Wang, Limin ; Xiong, Yuanjun ; Wang, Zhe ; Qiao, Yu ; Lin, Dahua ; Tang, Xiaoou ; Van Gool, Luc
时序片段网络在视频动作识别中的应用
摘要

深度卷积网络在图像识别方面取得了巨大成功。然而,在视频中的动作识别方面,它们相对于传统方法的优势并不那么明显。本文提出了一种通用且灵活的视频级框架,用于学习视频中的动作模型。该方法称为时间分段网络(Temporal Segment Network, TSN),旨在通过新的基于分段的采样和聚合模块来建模长程时间结构。这一独特设计使得我们的TSN能够高效地利用整个动作视频来学习动作模型。所学模型可以轻松适应修剪和未修剪视频的动作识别,分别通过简单的平均池化和多尺度时间窗口集成实现。我们还研究了一系列在训练样本有限的情况下实例化TSN框架的良好实践。我们的方法在四个具有挑战性的动作识别基准数据集上获得了最先进的性能:HMDB51(71.0%)、UCF101(94.9%)、THUMOS14(80.1%)和ActivityNet v1.2(89.6%)。使用所提出的RGB差分作为运动模型,我们的方法在UCF101数据集上仍能实现具有竞争力的精度(91.0%),同时运行速度达到每秒340帧。此外,基于时间分段网络,我们在2016年ActivityNet挑战赛的视频分类赛道中脱颖而出,击败了其他23支队伍,这进一步证明了TSN及其所提良好实践的有效性。