
摘要
手势识别(HGR)在各种现实场景中实现了直观的人机交互。然而,现有的框架往往难以满足实际HGR应用所需的实时性要求。本研究介绍了一种基于骨架的鲁棒框架,用于动态手势识别,该框架将动态手势的识别简化为静态图像分类任务,从而有效降低了硬件和计算需求。我们的框架采用数据级融合技术,将来自动态手势的3D骨架数据编码为静态RGB时空图像。该框架结合了一种专门的端到端集成调优器(e2eET)多流卷积神经网络(CNN)架构,该架构在优化数据表示之间的语义连接的同时,最小化了计算需求。通过在五个基准数据集(SHREC'17、DHG-14/28、FPHA、LMDHG和CNR)上进行测试,该框架展示了与现有最先进方法相当的性能。此外,通过在标准消费级PC硬件上的部署,该框架还证明了其支持实时HGR应用的能力,在实际环境中表现出低延迟和极低的资源占用。这一框架的成功部署突显了其在虚拟/增强现实、环境智能和辅助技术等领域提升实时应用潜力的可能性,为动态手势识别提供了一个可扩展且高效的解决方案。