Command Palette
Search for a command to run...
时间片段网络:面向深度动作识别的良好实践
时间片段网络:面向深度动作识别的良好实践
摘要
深度卷积网络在静态图像的视觉识别任务中取得了巨大成功。然而,在视频动作识别任务中,其相对于传统方法的优势并不十分明显。本文旨在探索设计高效卷积神经网络(ConvNet)架构以实现视频动作识别的基本原理,并在训练样本有限的情况下学习此类模型。我们的首个贡献是提出一种名为时序片段网络(Temporal Segment Network, TSN)的新框架,用于基于视频的动作识别。该框架基于长时程时间结构建模的思想,结合稀疏的时间采样策略与视频级监督机制,从而能够高效且有效地利用完整的动作视频进行学习。另一项贡献是借助TSN框架,对在视频数据上训练ConvNet的一系列良好实践进行了系统研究。所提出的方法在HMDB51(69.4%)和UCF101(94.2%)两个数据集上均取得了当时最先进的性能表现。此外,我们还对学习到的ConvNet模型进行了可视化分析,定性地验证了时序片段网络及所提出良好实践的有效性。