
摘要
基于3D骨架数据的动作识别是近年来的一个新兴重要课题。现有的大多数方法要么提取手工设计的描述符,要么通过需要大量标注数据的监督学习范式来学习动作表示。在本文中,我们首次提出了一种对比动作学习范式,命名为AS-CAL(Action Skeleton Contrastive Action Learning),该范式可以利用未标注骨架数据的不同增强版本以无监督的方式学习动作表示。具体而言,我们首先提出了对比输入骨架序列的增强实例(查询和键)之间的相似性,这些实例通过多种新颖的增强策略进行转换,从而学习不同骨架变换下的内在动作模式(“模式不变性”)。其次,为了鼓励学习更加一致的动作表示模式不变性,我们提出了一种动量LSTM(Long Short-Term Memory),其实现方式为基于动量的LSTM查询编码器的移动平均值,用于编码键序列的长期动作动态。第三,我们引入了一个队列来存储编码后的键,这使得我们的模型能够灵活地重用先前的键,并构建一个更加一致的字典以改进对比学习。最后,通过对查询编码器所学动作隐藏状态的时间平均化,我们提出了一种新的表示方法——对比动作编码(Contrastive Action Encoding, CAE),以有效表示人类的动作。广泛的实验表明,我们的方法通常将现有手工设计方法的Top-1准确率提高10-50%,并且其性能可与众多监督学习方法相媲美甚至超越。