
摘要
图卷积网络(Graph Convolutional Networks, GCNs)是基于骨架的动作识别中最常用的方法,已取得显著的性能表现。在该任务中,构建具有语义意义的边(即邻接矩阵)尤为关键,然而,有效提取此类语义边仍是一个具有挑战性的问题。为解决这一问题,本文提出一种分层分解图卷积网络(Hierarchically Decomposed Graph Convolutional Network, HD-GCN)架构,并引入一种新型的分层分解图(Hierarchically Decomposed Graph, HD-Graph)。所提出的HD-GCN能够将每个关节节点有效分解为多个子集,以分别提取主要的结构邻接边与远距离边,并在人体骨架的同一语义空间中构建包含这些边的HD-Graph。此外,本文设计了一种注意力引导的分层聚合模块(Attention-guided Hierarchy Aggregation, A-HA),用于突出HD-Graph中占主导地位的分层边集。同时,我们提出一种新型的六路集成方法,仅使用关节流(joint stream)与骨骼流(bone stream),不依赖任何运动流(motion stream)。所提出的模型在四个主流且规模较大的数据集上进行了评估,均取得了当前最优(state-of-the-art)的性能表现。最后,通过一系列对比实验,充分验证了所提模型的有效性与优越性。