6 个月前

摘要

人体骨骼与RGB序列是当前人体动作识别任务中广泛采用的两种输入模态。然而，骨骼数据缺乏外观特征，而RGB图像则包含大量与动作无关的视觉信息（如服饰、背景等）。为解决这一问题，本文提出引入人体解析特征图（human parsing feature map）作为一种新型模态，该模态能够有效保留人体各部位的时空特征，同时抑制服装、背景等无关噪声的影响。为此，我们提出一种融合人体解析与姿态信息的网络架构——IPP-Net（Integrating Human Parsing and Pose Network），这是首个采用双分支结构联合利用骨骼信息与人体解析特征图进行动作识别的方法。在姿态分支中，不同模态的紧凑骨骼表示被输入图卷积网络（Graph Convolutional Network），以建模人体姿态特征；在人体解析分支中，通过人体检测器与解析器提取多帧人体部位分割特征，并由卷积主干网络进行特征学习。最终，采用晚期融合策略对两个分支的输出进行整合，以同时利用鲁棒的关键点信息与丰富的语义人体部位特征。在NTU RGB+D与NTU RGB+D 120两个主流基准数据集上的大量实验结果一致表明，所提出的IPP-Net在动作识别任务中显著优于现有方法。相关代码已公开，可访问：https://github.com/liujf69/IPP-Net-Parsing。

源 PDF