17 天前

基于骨架的动作识别的多尺度时空卷积神经网络

{Jianming Liu, Qieshi Zhang, Ziliang Ren, Jun Cheng, Qin Cheng}
摘要

骨骼数据在动作识别中蕴含着重要信息,因其对复杂背景和光照变化具有较强的鲁棒性。近年来,由于卷积神经网络(CNN)或循环神经网络(RNN)在提取骨骼数据时空特征方面能力有限,其识别准确率表现相对不足。为此,一系列基于图卷积网络(GCN)的方法取得了显著进展,并逐渐成为主流。然而,GCN-based方法的计算开销较大,部分方法的计算量甚至超过100 GFLOPs,这与骨骼数据本身高度紧凑的特性相悖。为此,本文提出一种新型的多尺度时空卷积(Multi-Scale Spatial-Temporal Convolution, MSST)模块,旨在隐式地融合不同尺度下时空表示之间的互补优势。与以往将骨骼数据转换为伪图像的CNN方法,或采用复杂图卷积操作不同,本文方法充分利用时间与空间维度上的多尺度卷积,有效捕捉骨骼关节点间的全面依赖关系。在此基础上,构建了统一的MSST模块,提出一种多尺度时空卷积神经网络(MSSTNet),用于提取高层次的时空语义特征以实现动作识别。与以往通过增加计算代价提升性能的方法不同,MSSTNet具有模型轻量化、推理速度快的优势,易于部署。此外,本文将MSSTNet集成于四流架构中,融合多模态数据,显著提升了识别准确率。在NTU RGB+D 60、NTU RGB+D 120、UAV-Human以及Northwestern-UCLA等数据集上的实验结果表明,所提出的MSSTNet在取得与当前最先进方法相当甚至更优的性能的同时,计算成本大幅降低,展现出卓越的效率与实用性。