
摘要
自监督预训练范式在基于骨架的动作识别任务中取得了显著成功。然而,现有方法通常对运动部分与静态部分同等对待,缺乏针对不同组成部分的自适应设计,这在一定程度上影响了动作识别的准确率。为实现对运动与静态部分的自适应建模,本文提出一种基于动作片段的对比学习方法(Actionlet-Dependent Contrastive Learning,简称 ActCLR)。其中,“动作片段”(actionlet)被定义为人体骨架中具有判别性的子集,能够有效分解运动区域,从而提升动作建模能力。具体而言,通过将骨架数据与无运动的静态锚点进行对比,本文在无监督条件下提取出具有运动特性的区域,即动作片段。在此基础上,围绕动作片段构建了一种运动自适应的数据增强方法:对动作片段区域与非动作片段区域分别施加差异化的数据变换,在保留各自特征的同时引入更多多样性。同时,本文提出一种语义感知的特征池化方法,以差异化的方式融合运动区域与静态区域的特征表示。在 NTU RGB+D 和 PKUMMD 两个公开数据集上的大量实验表明,所提方法在动作识别任务中取得了显著优异的性能。更多的可视化分析与定量实验进一步验证了该方法的有效性。项目主页详见:https://langlandslin.github.io/projects/ActCLR/