
摘要
改进的密集轨迹(iDT)在动作识别中表现出色,其与双流方法的结合已达到当前最佳性能。然而,iDT难以完全从带有相机抖动的视频中去除背景轨迹。为了生成更具区分性的局部描述符以用于动作识别,应对较少区分性区域中的轨迹赋予较低权重。此外,双流方法分别学习外观和运动信息,在从外观网络的空间卷积层提取特征时无法专注于重要区域的运动信息,反之亦然。为了解决上述问题,我们提出了一种新的局部描述符,该描述符通过沿iDT交叉两个网络获得的新卷积层进行池化计算。这种新描述符是通过将一个网络中学到的区分性权重应用于另一个网络的卷积层来计算的。我们的方法在顺序动作识别数据集上取得了当前最佳性能,在UCF101数据集上达到了92.3%,在HMDB51数据集上达到了66.2%。