
摘要
零样本骨架动作识别旨在在训练过程中仅使用已见类别数据的情况下,识别未见类别的动作。其关键在于建立从已见类别到未见类别的视觉空间与语义空间之间的联系。以往的研究主要集中在将序列编码为单一特征向量,并随后将这些特征映射到嵌入空间中的相同锚点。然而,这些方法的性能受到以下两方面因素的限制:1)忽视了全局视觉/语义分布对齐,导致无法充分捕捉两个空间之间的真实相互依赖关系;2)忽略了时间信息,因为富含动作线索的帧级特征被直接池化为一个单一的特征向量。我们提出了一种基于互信息(MI)估计和最大化的新型零样本骨架动作识别方法。具体而言,1)我们通过最大化视觉空间与语义空间之间的互信息来实现分布对齐;2)我们利用时间信息进行互信息估计,通过鼓励观察更多帧时互信息增加来实现这一目标。我们在三个大规模骨架动作数据集上进行了广泛的实验,验证了该方法的有效性。代码:https://github.com/YujieOuO/SMIE。