6 个月前

摘要

在动作识别任务中，尽管结合时空视频与骨骼特征能够提升识别性能，但仍需分别构建模型并对跨模态数据进行特征表示的平衡处理。为解决上述问题，本文提出一种名为时空跨模态（Spatio-Temporal Aligned Representation, STAR）-Transformer的新型架构，能够有效将两种跨模态特征统一表示为可识别的向量。首先，从输入的视频序列和骨骼序列中，分别提取视频帧作为全局网格令牌（global grid tokens），骨骼信息则转换为关节点图令牌（joint map tokens）。随后，这些令牌被聚合为多类别令牌，并输入至STAR-Transformer模型中。STAR-Transformer的编码器层由全自注意力（Full Self-Attention, FAttn）模块与本文提出的锯齿状时空注意力（Zigzag Spatio-Temporal Attention, ZAttn）模块构成；解码器层同样由FAttn模块与所提出的二值化时空注意力（Binary Spatio-Temporal Attention, BAttn）模块组成。通过合理配置FAttn、ZAttn与BAttn模块的组合结构，STAR-Transformer能够学习到高效且富有表达力的时空多特征表示。在Penn-Action、NTU RGB+D 60以及NTU RGB+D 120三个公开数据集上的实验结果表明，所提方法相较于现有最先进方法，在动作识别性能上实现了显著且具有竞争力的提升。

源 PDF