3 个月前

PSUMNet:统一模态部件流在基于姿态的动作识别中已足够高效

Neel Trivedi, Ravi Kiran Sarvadevabhatla
PSUMNet:统一模态部件流在基于姿态的动作识别中已足够高效
摘要

基于姿态的动作识别主要依赖于将输入骨架以整体方式处理的方法,即对姿态树中的所有关节点进行统一处理。然而,这类方法忽视了一个重要事实:许多动作类别通常由局部动作动态特征所定义,仅涉及少数特定部位的关节点组合,例如手部动作(如“竖大拇指”)或腿部动作(如“踢腿”)。尽管已有基于局部部件分组的方法,但这些部件组并未在全局姿态框架内进行统一建模,导致现有方法在建模局部动态特征方面存在局限。此外,传统方法通常采用独立的模态流(如关节点、骨骼、关节点速度、骨骼速度),并在每个模态流上分别训练网络,这显著增加了模型的训练参数量。为解决上述问题,本文提出PSUMNet——一种新型、可扩展且高效的基于姿态的动作识别方法。在表示层面,PSUMNet摒弃传统的模态流设计,转而采用基于全局姿态框架的部件流(part stream)结构。在每个部件流中,来自多个模态的数据被统一整合,并由统一的处理流程进行建模,从而实现多模态信息的高效融合。实验结果表明,PSUMNet在广泛使用的NTU RGB+D 60/120数据集以及密集关节点骨架数据集NTU 60-X/120-X上均达到了当前最优性能。同时,PSUMNet具有极高的计算效率,在参数量比现有方法多出100%至400%的情况下仍显著优于后者。此外,PSUMNet在SHREC手部手势数据集上也展现出良好的泛化能力,性能具有竞争力。综上所述,PSUMNet在可扩展性、识别性能与计算效率方面表现出色,是动作识别任务的理想选择,尤其适用于计算资源受限的嵌入式与边缘设备部署。项目代码与预训练模型已开源,可通过以下链接获取:https://github.com/skelemoa/psumnet