
摘要
时空卷积在视频中往往难以有效学习运动动态,因此在真实场景下的视频理解任务中,亟需一种高效且鲁棒的运动表征方法。本文提出一种基于时空自相似性(Spatio-Temporal Self-Similarity, STSS)的丰富且稳健的运动表征。给定一序列视频帧,STSS 将每个局部区域表示为在时空邻域内与其他区域的相似性关系。通过将外观特征转化为关系值,该方法使模型能够更有效地识别时空结构模式。我们充分利用 STSS 的完整体素空间,让模型端到端地学习从中提取有效的运动表征。所提出的神经模块——SELFY,可无缝嵌入各类神经网络架构中,无需额外监督即可实现端到端训练。得益于在时空维度上充分的邻域感受野,该方法能够有效捕捉视频中的长时依赖关系与快速运动,显著提升动作识别的鲁棒性。实验分析表明,该方法在运动建模方面优于以往方法,同时与直接卷积获得的时空特征具有良好的互补性。在标准动作识别基准数据集 Something-Something-V1 & V2、Diving-48 和 FineGym 上,所提方法均取得了当前最优(state-of-the-art)的性能表现。