
摘要
从复杂的时空动态空间中学习判别性表示对于视频识别至关重要。在这些具有特定风格的时空计算单元基础上,进一步利用轴向上下文对学习到的特征进行精细化已被证明是实现这一目标的有效方法。然而,以往的研究通常集中于使用单一类型的上下文来校准整个特征通道,这很难应对多样化的视频活动。通过使用成对的时空注意力机制,可以利用跨轴上下文重新计算特征响应以解决这一问题,但这种方法需要大量的计算资源。本文提出了一种高效的特征精细化方法,该方法将特征通道分解为若干组,并分别利用不同的轴向上下文并行地对其进行精细化。我们称这种轻量级的特征校准为组上下文化(Group Contextualization, GC)。具体而言,我们设计了一系列高效的逐元素校准器,即 ECal-G/S/T/L,它们的轴向上下文是从其他轴全局或局部聚合的信息动态,用于对特征通道组进行上下文化处理。GC 模块可以密集地插入到现成视频网络的每个残差层中。在不同网络中插入 GC 模块后,观察到了一致性的性能提升,并且计算开销很小。通过并行地利用四种不同类型的上下文校准器嵌入特征,所学习到的表示有望更加适应各种类型的活动。在时间变化丰富的视频上,实验证明 GC 可以将 2D-CNN(如 TSN 和 TSM)的性能提升至接近当前最先进的视频网络水平。代码可在 https://github.com/haoyanbin918/Group-Contextualization 获取。