2 个月前
时序片段网络:迈向深度动作识别的良好实践
Wang, Limin ; Xiong, Yuanjun ; Wang, Zhe ; Qiao, Yu ; Lin, Dahua ; Tang, Xiaoou ; Van Gool, Luc

摘要
深度卷积网络在静态图像的视觉识别中取得了巨大成功。然而,在视频中的动作识别方面,其相对于传统方法的优势并不那么明显。本文旨在发现设计有效的卷积神经网络(ConvNet)架构用于视频动作识别的原则,并在有限的训练样本下学习这些模型。我们的第一个贡献是时间片段网络(Temporal Segment Network, TSN),这是一种基于长程时间结构建模思想的新型视频动作识别框架。该框架结合了稀疏时间采样策略和视频级别的监督,从而能够在整个动作视频上实现高效且有效的学习。另一个贡献是我们对一系列良好实践的研究,这些实践有助于在视频数据上利用时间片段网络学习卷积神经网络(ConvNets)。我们的方法在HMDB51(69.4%)和UCF101(94.2%)数据集上取得了当前最佳性能。我们还对所学的卷积神经网络模型进行了可视化,定性地展示了时间片段网络及所提出的良好实践的有效性。