
摘要
图卷积网络(Graph Convolutional Networks, GCN)在基于骨骼的动作识别任务中得到了广泛应用。我们注意到,现有的基于GCN的方法主要依赖于预定义的图结构(即人工设定的骨骼关节点拓扑关系),这限制了其捕捉关节点之间复杂关联的能力。为突破这一局限,本文提出一种新的基于骨骼的动作识别框架——动态分组时空图卷积网络(Dynamic Group Spatio-Temporal GCN, DG-STGCN)。该框架由两个核心模块构成:DG-GCN用于空间建模,DG-TCN用于时间建模。其中,DG-GCN通过学习得到的亲和矩阵来动态建模图结构,而非依赖固定的预设拓扑;DG-TCN则采用具有可变感受野的分组时间卷积,并引入动态关节点-骨骼融合模块,实现自适应的多层次时间建模。在多个主流基准数据集(包括NTU RGB+D、Kinetics-Skeleton、BABEL和Toyota SmartHome)上的实验结果表明,DG-STGCN始终优于当前最先进的方法,且在多数情况下性能提升显著。