6 个月前

摘要

视觉节奏（visual tempo）刻画了动作的动态特性及其随时间的演变过程，有助于描述动作行为。近年来的方法直接在骨骼序列上进行视觉节奏预测，但这类方法可能面临特征表示不足的问题。本文观察到，相对视觉节奏更符合人类的直观认知，因而能提供更为有效的监督信号。基于此，我们提出一种新型的基于骨骼动作表示的相对视觉节奏对比学习框架（Relative Visual Tempo Contrastive Learning for Skeleton Action Representation, RVTCLR）。具体而言，我们设计了相对视觉节奏学习（Relative Visual Tempo Learning, RVTL）任务，以挖掘视频片段内部的运动信息；同时引入外观一致性（Appearance-Consistency, AC）任务，同步学习外观信息，从而获得更具代表性的时空特征。此外，骨骼序列数据相较于RGB数据更为稀疏，容易导致网络学习到捷径依赖，过度拟合于低层次信息（如骨骼尺度）。为学习更高阶的语义特征，我们进一步设计了一个新的分布一致性（Distribution-Consistency, DC）分支，包含三个核心组件：骨骼特异性数据增强（Skeleton-specific Data Augmentation, SDA）、细粒度骨骼编码模块（Fine-grained Skeleton Encoding Module, FSEM）以及感知分布差异的多样性损失（Distribution-aware Diversity, DD Loss）。我们将完整方法（RVTCLR + DC）命名为RVTCLR+。在NTU RGB+D 60和NTU RGB+D 120数据集上的大量实验表明，RVTCLR+在性能上达到或超越当前最先进的方法。代码已开源，地址为：https://github.com/Zhuysheng/RVTCLR。

源 PDF 查看代码