
摘要
视觉-based动作识别中的一个关键挑战是如何将两种或多种异构模态的时空特征有效融合为单一特征表示。在本研究中,我们提出了一种新型的3D可变形Transformer架构,具备自适应的时空感受野,并引入了跨模态学习机制,以提升动作识别性能。该3D可变形Transformer由三个注意力模块构成:3D可变形注意力、局部关节步长注意力以及时间步长注意力。其中,两个跨模态令牌被输入至3D可变形注意力模块,以生成具有时空相关性表征的交叉注意力令牌。局部关节步长注意力用于在空间维度上融合注意力特征与姿态令牌,实现对关键关节信息的有效整合。时间步长注意力则在时间维度上减少输入令牌的数量,从而在不同时刻全部使用所有令牌的前提下,支持更高效的时序表达学习。该可变形Transformer通过L次迭代,最终融合最后一次生成的跨模态令牌用于分类。所提出的3D可变形Transformer在NTU60、NTU120、FineGYM和PennAction等多个公开数据集上进行了验证,结果表明,即使在无需预训练的情况下,其性能仍优于或接近当前最先进的预训练方法。此外,通过可视化动作识别过程中关键关节及时间步长注意力所关注的时空相关性,本研究进一步展示了该模型在实现动作识别可解释性方面的潜力,为理解模型决策过程提供了直观依据。