摘要
手势识别可通过直接处理三维点云序列获益,因为点云序列蕴含丰富的几何信息,有助于学习具有表现力的时空特征。然而,当前广泛采用的单流模型难以充分捕捉包含细微局部姿态变化与整体手势运动在内的多尺度特征。为此,我们提出一种新型双流模型,将局部特征与全局特征的学习过程解耦,并在LSTM中进行融合以实现时序建模。为促使全局流与局部流分别捕捉互补的位置与姿态特征,我们在两个分支中采用不同的三维学习架构。具体而言,在局部流中,采用当前最先进的点云网络,以从原始点云中有效捕捉精细的姿态变化;而在全局流中,我们结合残差基点集编码与全连接的DenseNet结构,以实现对手部运动的精准追踪。我们在Shrec'17与DHG数据集上对所提方法进行了评估,结果表明在显著降低计算成本的同时,达到了当前最优的性能水平。源代码已开源,地址为:https://github.com/multimodallearning/hand-gesture-posture-position。