Command Palette
Search for a command to run...
基于轨迹池化深度卷积描述子的动作识别
基于轨迹池化深度卷积描述子的动作识别
Wang Limin Qiao Yu Tang Xiaoou
摘要
视觉特征在视频中人类行为理解任务中具有至关重要的作用。本文提出了一种新型视频表示方法,称为轨迹池化深度卷积描述子(Trajectory-Pooled Deep-Convolutional Descriptor, TDD),该方法兼具人工设计特征与深度学习特征的优点。具体而言,我们利用深度网络架构学习具有判别性的卷积特征图,并通过轨迹约束池化策略将这些卷积特征聚合为高效描述子。为增强TDD的鲁棒性,我们设计了两种归一化方法对卷积特征图进行变换,分别为时空归一化(spatiotemporal normalization)和通道归一化(channel normalization)。本方法的优势主要体现在以下两点:(i)TDD是自动学习得到的,其判别能力显著优于传统人工设计特征;(ii)TDD充分考虑了时间维度的内在特性,引入了轨迹约束采样与池化策略,用于有效聚合深度学习所得特征。我们在两个具有挑战性的数据集——HMDB51和UCF101上进行了实验。实验结果表明,TDD在性能上超越了以往的人工设计特征与深度学习特征。此外,本方法在上述数据集上均达到了当前最优水平,其中HMDB51的准确率达到65.9%,UCF101达到91.5%。