HyperAIHyperAI

Command Palette

Search for a command to run...

STEP CATFormer:基于骨骼动作识别的时空有效肢体部位交叉注意力Transformer

Nguyen Huu Bao Long

摘要

图卷积网络(Graph Convolutional Networks, GCNs)在基于骨骼的动作识别任务中得到了广泛应用,并取得了显著成果。我们认为,基于骨骼的动作识别关键在于骨骼在帧间的动态呈现,因此本文聚焦于图卷积网络如何学习不同的拓扑结构,并在全局时序与局部时序范围内有效聚合关节特征。为此,本文提出了一种基于通道级拓扑优化的图卷积方法——通道级拓扑图卷积(Channel-wise Topology Graph Convolution, CTR-GCN)。通过将CTR-GCN与两个关节间交叉注意力模块相结合,能够有效捕捉人体上肢与下肢、手部与足部之间的关系特征。为进一步建模骨骼在帧间变化的动态特性,我们设计了时序注意力变换器(Temporal Attention Transformers),以高效提取骨骼序列的时序特征。该模块能够学习人体骨骼序列的时序依赖关系。最后,我们将提取出的时序特征进行多层感知机(MLP)融合与分类。由此构建的图卷积网络被命名为空间-时序有效肢体间交叉注意力变换器(Spatial-Temporal Effective Body-part Cross Attention Transformer, STEP-CATFormer),在NTU RGB+D与NTU RGB+D 120数据集上均表现出卓越的性能。相关代码与模型已开源,地址为:https://github.com/maclong01/STEP-CATFormer


用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码
开箱即用的 GPU
最优定价

HyperAI Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供