17 天前

基于骨架的动作识别的非局部图卷积网络

{Hanqing Lu, Jian Cheng, Yifan Zhang, Lei Shi}
基于骨架的动作识别的非局部图卷积网络
摘要

基于骨骼的动作识别的传统深度学习方法通常将骨骼结构表示为坐标序列或伪图像,输入至循环神经网络(RNN)或卷积神经网络(CNN),但这类方法难以显式建模关节之间的自然连接关系。近年来,图卷积网络(Graph Convolutional Networks, GCNs)作为一种将CNN推广至更通用非欧几里得结构的模型,在基于骨骼的动作识别任务中取得了显著性能提升。然而,现有GCNs的图结构通常由人工预先设定且在各网络层间保持固定,这种硬编码的拓扑结构可能并非最优,尤其难以适配动作识别任务本身以及层级化CNN的结构特性。此外,早期GCNs主要依赖一阶信息(即关节坐标),而对二阶信息(如骨骼的长度与方向)的利用则相对不足。针对上述问题,本文提出一种新颖的双流非局部图卷积网络(Two-Stream Nonlocal Graph Convolutional Network)。该模型在每一层中均可通过反向传播(BP)算法统一或独立地学习图的拓扑结构,从而显著提升模型的灵活性与泛化能力。同时,本文设计了一种双流架构,能够同步建模关节与骨骼的特征信息,进一步提升识别性能。在两个大规模数据集NTU-RGB+D与Kinetics上的大量实验表明,所提模型在性能上显著超越现有最先进方法。