2 个月前

学习时空表示的局部和全局扩散方法

Zhaofan Qiu; Ting Yao; Chong-Wah Ngo; Xinmei Tian; Tao Mei
学习时空表示的局部和全局扩散方法
摘要

卷积神经网络(CNN)一直被视为解决视觉识别问题的一类强大模型。然而,这些网络中的卷积滤波器是局部操作,忽略了长距离依赖关系。这一缺点在视频识别中尤为明显,因为视频是一种信息密集型媒体,具有复杂的时序变化。本文提出了一种新颖的框架,通过局部和全局扩散(LGD)来增强时空表示学习。具体而言,我们构建了一种新的神经网络架构,该架构并行学习局部和全局表示。该架构由LGD块组成,每个块通过建模这两种表示之间的扩散来更新局部和全局特征。扩散有效地交互了两种信息方面,即局部化信息和整体信息,从而实现更强大的表示学习方法。此外,引入了一种核化分类器来结合来自这两个方面的表示进行视频识别。我们的LGD网络在大规模Kinetics-400和Kinetics-600视频分类数据集上分别比最佳竞争对手提高了3.5%和0.7%的性能。我们进一步检验了预训练的LGD网络生成的全局和局部表示在四个不同的基准数据集上的泛化能力,用于视频动作识别和时空动作检测任务。实验结果表明,在这些基准数据集上,我们的方法优于几种最先进的技术。代码可在以下地址获取:https://github.com/ZhaofanQiu/local-and-global-diffusion-networks。