
摘要
基于骨架数据的动作识别近年来在计算机视觉领域受到了广泛关注。以往的研究大多依赖于固定的骨架图,仅能捕捉关节之间的局部物理依赖关系,可能会遗漏隐含的关节关联。为了捕捉更丰富的依赖关系,我们引入了一种编码器-解码器结构,称为A-link推理模块,直接从动作中捕获特定于动作的潜在依赖关系(即动作链接)。我们还扩展了现有的骨架图以表示更高阶的依赖关系(即结构链接)。将这两种链接结合到一个广义的骨架图中,我们进一步提出了动作-结构图卷积网络(AS-GCN),该网络将动作-结构图卷积和时间卷积作为基本构建块进行堆叠,以学习空间和时间特征用于动作识别。此外,我们在识别头并行添加了一个未来姿态预测头,通过自监督帮助捕捉更详细的动作模式。我们在两个骨架数据集NTU-RGB+D和Kinetics上验证了AS-GCN在动作识别中的效果。实验结果表明,所提出的AS-GCN相比现有最先进方法取得了显著的改进。作为副产品,AS-GCN在未来的姿态预测方面也展示了令人鼓舞的结果。