2 个月前
三维手部姿态在动作识别中的应用价值
Shamil, Md Salman ; Chatterjee, Dibyadip ; Sener, Fadime ; Ma, Shugao ; Yao, Angela

摘要
三维手部姿态在动作识别领域是一个尚未充分探索的模态。姿态信息紧凑且富有信息量,可以极大地惠及计算资源有限的应用。然而,仅凭姿态无法完全理解动作,因为它们无法全面捕捉人类与之互动的对象和环境。为此,我们提出了一种名为HandFormer的新颖多模态变换器,用于高效建模手-物交互。HandFormer结合了高时间分辨率下的三维手部姿态以实现细粒度的动作建模,并通过稀疏采样的RGB帧来编码场景语义。鉴于手部姿态的独特特性,我们在时间上对姿态建模进行了分解,并通过其短期轨迹表示每个关节。这种分解的姿态表示与稀疏的RGB样本相结合,不仅效率显著提高,而且准确性也非常高。仅使用手部姿态的单模态HandFormer在浮点运算次数(FLOPs)减少5倍的情况下仍优于现有的基于骨架的方法。结合RGB数据后,我们在Assembly101和H2O数据集上取得了新的最佳性能,在以自我为中心的动作识别方面有了显著改进。