17 天前
少样本动作识别中的置换不变注意力
Hongguang Zhang, Li Zhang, Xiaojuan Qi, Hongdong Li, Philip H. S. Torr, Piotr Koniusz

摘要
许多少样本学习模型专注于图像识别任务,而本文则致力于一项更具挑战性的任务——基于视频的少样本动作识别。我们采用C3D编码器对视频中的时空块进行建模,以捕捉短时程的动作模式。这些编码后的时空块通过排列不变性池化(permutation-invariant pooling)进行聚合,从而提升模型对不同动作长度以及长时程时间依赖关系的鲁棒性。由于同一类别视频片段中,长程时间模式极难重复出现,因此该设计尤为重要。随后,池化后的特征被整合为简化的关系描述符,用于编码所谓的查询片段(query clip)和支持片段(support clip)。最终,这些关系描述符输入比较器(comparator),以实现查询片段与支持片段之间的相似性学习。尤为重要的是,为在池化过程中动态重加权各时空块的贡献,我们引入了空间与时间注意力模块,并结合自监督学习机制。在自然场景下的视频片段(同一类别)中,存在显著的时间分布偏移——判别性的时间动作热点位置具有高度可变性。为此,我们对视频片段的时空块进行随机置换,并将置换后生成的注意力区域与未置换片段的对应置换注意力区域进行对齐,从而训练注意力机制具备对块排列(即长期动作热点位置)的不变性。实验结果表明,所提出的方法在HMDB51、UCF101以及miniMIT三个基准数据集上均显著超越现有最先进方法,展现了优异的少样本动作识别性能。