
摘要
视觉特征对于视频中的人类行为理解至关重要。本文提出了一种新的视频表示方法,称为轨迹池化深度卷积描述符(Trajectory-Pooled Deep-Convolutional Descriptor, TDD),该方法结合了手工设计特征和深度学习特征的优点。具体而言,我们利用深度架构来学习具有区分性的卷积特征图,并通过轨迹约束池化将这些卷积特征聚合为有效的描述符。为了增强TDD的鲁棒性,我们设计了两种归一化方法来转换卷积特征图,即时空归一化和通道归一化。我们的特征的优势在于:(i) TDDs 是自动学习的,相比手工设计的特征具有更高的区分能力;(ii) TDDs 考虑了时间维度的内在特性,并引入了轨迹约束采样和池化的策略来聚合深度学习特征。我们在两个具有挑战性的数据集上进行了实验:HMDB51 和 UCF101。实验结果表明,TDDs 在性能上优于以往的手工设计特征和深度学习特征。我们的方法在这两个数据集上的表现也超过了现有最佳方法(HMDB51 65.9%,UCF101 91.5%)。