17 天前

STAR-Transformer:一种用于人体动作识别的时空交叉注意力Transformer

Dasom Ahn, Sangwon Kim, Hyunsu Hong, Byoung Chul Ko
STAR-Transformer:一种用于人体动作识别的时空交叉注意力Transformer
摘要

在动作识别任务中,尽管结合时空视频与骨骼特征能够提升识别性能,但仍需分别构建模型并对跨模态数据进行特征表示的平衡处理。为解决上述问题,本文提出一种名为时空跨模态(Spatio-Temporal Aligned Representation, STAR)-Transformer的新型架构,能够有效将两种跨模态特征统一表示为可识别的向量。首先,从输入的视频序列和骨骼序列中,分别提取视频帧作为全局网格令牌(global grid tokens),骨骼信息则转换为关节点图令牌(joint map tokens)。随后,这些令牌被聚合为多类别令牌,并输入至STAR-Transformer模型中。STAR-Transformer的编码器层由全自注意力(Full Self-Attention, FAttn)模块与本文提出的锯齿状时空注意力(Zigzag Spatio-Temporal Attention, ZAttn)模块构成;解码器层同样由FAttn模块与所提出的二值化时空注意力(Binary Spatio-Temporal Attention, BAttn)模块组成。通过合理配置FAttn、ZAttn与BAttn模块的组合结构,STAR-Transformer能够学习到高效且富有表达力的时空多特征表示。在Penn-Action、NTU RGB+D 60以及NTU RGB+D 120三个公开数据集上的实验结果表明,所提方法相较于现有最先进方法,在动作识别性能上实现了显著且具有竞争力的提升。