17 天前

EAN:面向增强动作识别的事件自适应网络

Yuan Tian, Yichao Yan, Guangtao Zhai, Guodong Guo, Zhiyong Gao
EAN:面向增强动作识别的事件自适应网络
摘要

高效建模视频中的时空信息对于动作识别至关重要。为实现这一目标,当前最先进的方法通常采用卷积算子以及密集交互模块(如非局部块)。然而,这些方法难以准确捕捉视频中多样化的事件。一方面,所采用的卷积操作具有固定感受野尺度,难以适应不同尺度的事件;另一方面,密集交互建模范式由于引入了大量与动作无关的背景区域,带来了额外噪声,导致性能仅能达到次优水平。本文提出一种统一的动作识别框架——事件自适应网络(Event Adaptive Network, EAN),通过引入以下两项设计来探究视频内容的动态特性:首先,在提取局部线索时,我们生成具有动态尺度的时空卷积核,以自适应地匹配视频中多样的事件;其次,为更精准地将这些局部线索聚合为全局视频表征,我们提出利用Transformer仅在少数选定的前景物体之间挖掘交互关系,从而构建一种稀疏建模范式。由于上述两项核心设计均能根据输入视频内容自适应调整,因此命名为事件自适应网络(EAN)。为进一步捕捉局部片段内的短时运动模式,我们提出一种新颖且高效的潜在运动码(Latent Motion Code, LMC)模块,进一步提升了框架的性能。在多个大规模视频数据集(如Something-to-Something V1&V2、Kinetics和Diving48)上的大量实验表明,所提出的模型在保持较低浮点运算量(FLOPs)的同时,达到了当前最优或具有竞争力的性能表现。代码已开源,地址为:https://github.com/tianyuan168326/EAN-Pytorch。