
摘要
许多领先的视频理解方法都对数据量有很高的需求且耗时较长,无法高效地捕捉空间-时间演变的核心。最新的研究表明,卷积神经网络(CNN)可以推理图像中实体的静态关系。为了进一步挖掘其在动态演变推理方面的能力,我们引入了一种称为密集图像网络(DenseImage Network, DIN)的新网络模块,该模块具有两个主要贡献。1)提出了一种新颖的紧凑视频表示方法,将视频中的重要空间-时间演变提炼为一个称为密集图像(DenseImage)的矩阵,便于高效的视频编码。2)基于密集图像和保持时间顺序的CNN网络,提出了一种简单而强大的学习策略用于视频理解,该策略包含一个局部时间相关性约束,通过不同滤波器宽度捕捉多个时间尺度上的时间演变。广泛的实验在两个最近具有挑战性的基准数据集上表明,我们的密集图像网络能够准确捕捉相似动作之间的共同空间-时间演变,即使存在巨大的视觉变化或不同的时间尺度。此外,我们在动作和手势识别任务中取得了最先进的结果,并且所需的时间和内存成本大大降低,这表明该方法在视频表示和理解方面具有巨大的潜力。