17 天前

TAda!用于视频理解的时序自适应卷积

Ziyuan Huang, Shiwei Zhang, Liang Pan, Zhiwu Qing, Mingqian Tang, Ziwei Liu, Marcelo H. Ang Jr
TAda!用于视频理解的时序自适应卷积
摘要

空间卷积在众多深度视频模型中被广泛使用,其基本假设是时空不变性,即在不同帧的各个位置上共享卷积权重。本文提出了一种用于视频理解的时序自适应卷积(Temporally-Adaptive Convolutions, TAdaConv),表明沿时间维度进行自适应权重校准是一种高效建模视频复杂时序动态的有效方法。具体而言,TAdaConv通过根据每一帧的局部与全局时间上下文信息,对卷积核权重进行动态校准,从而赋予空间卷积以时序建模能力。与以往的时序建模操作相比,TAdaConv具有更高的效率,因为它作用于卷积核本身,而非特征图,而卷积核的维度比空间分辨率小一个数量级。此外,核权重的动态校准还显著提升了模型的表达能力。我们通过将ResNet和ConvNeXt中的2D卷积替换为TAdaConv,构建了TAda2D和TAdaConvNeXt网络,在多个视频动作识别与定位基准测试中,其性能达到或优于当前最先进的方法。此外,我们还证明,作为一种可即插即用、计算开销极低的操作,TAdaConv能够以显著的提升效果增强多种现有视频模型。