
摘要
基于骨骼的动作识别近年来受到广泛关注。现有的骨骼动作识别方法通常被建模为一类独热编码(one-hot)分类任务,未能充分挖掘动作之间的语义关联。例如,“比出胜利手势”与“竖起大拇指”均为手部动作,二者的主要区别在于手部运动方式的不同。这一信息在动作类别的独热编码中是不可见的,但却可以通过动作描述得以揭示。因此,在训练过程中引入动作描述,有望促进表示学习的优化。本文提出一种生成式动作描述提示(Generative Action-description Prompts, GAP)方法,用于骨骼动作识别。具体而言,我们采用预训练的大规模语言模型作为知识引擎,自动生成动作中各身体部位运动的文本描述;并设计了一种多模态训练框架,利用文本编码器为不同身体部位生成特征向量,同时以这些文本特征作为监督信号,指导骨骼编码器进行动作表征学习。实验结果表明,所提出的GAP方法在不增加推理阶段计算开销的前提下,显著优于多种基线模型。在多个主流骨骼动作识别基准数据集上,包括NTU RGB+D、NTU RGB+D 120和NW-UCLA,GAP均取得了新的最优性能(state-of-the-art)。相关源代码已公开,地址为:https://github.com/MartinXM/GAP。