2 个月前

基于卷积神经网络的实时手势检测与分类

Okan Köpüklü; Ahmet Gunduz; Neslihan Kose; Gerhard Rigoll
基于卷积神经网络的实时手势检测与分类
摘要

从视频流中实时识别动态手势是一项具有挑战性的任务,因为(i)视频中没有明确指示手势何时开始和结束,(ii)执行的手势应该仅被识别一次,(iii)整个架构的设计需要考虑内存和功耗预算。在本研究中,我们通过提出一种分层结构来应对这些挑战,该结构利用滑动窗口方法使离线工作的卷积神经网络(CNN)架构能够高效地在线运行。所提出的架构包含两个模型:(1)一个检测器,即轻量级的CNN架构,用于检测手势;(2)一个分类器,即深度CNN,用于对手势进行分类。为了评估检测到的手势的单次激活情况,我们建议使用Levenshtein距离作为评估指标,因为它可以同时测量误分类、多次检测和漏检。我们在两个公开可用的数据集——EgoGesture和NVIDIA动态手势数据集上评估了我们的架构,这两个数据集要求对执行的手势进行时间上的检测和分类。作为分类器使用的ResNeXt-101模型,在EgoGesture和NVIDIA基准测试中分别达到了94.04%和83.82%的离线分类精度(对于深度模态)。在实时检测和分类方面,我们获得了显著的早期检测结果,同时实现了接近离线操作的性能。本研究中使用的代码和预训练模型已公开发布。