2 个月前

分层窗口图注意力网络及大规模数据集在孤立印度手语识别中的应用

Patra, Suvajit ; Maitra, Arkadip ; Tiwari, Megha ; Kumaran, K. ; Prabhu, Swathy ; Punyeshwarananda, Swami ; Samanta, Soumitra
分层窗口图注意力网络及大规模数据集在孤立印度手语识别中的应用
摘要

自动手语(SL)识别是计算机视觉领域的一个重要任务。为了构建一个稳健的手语识别系统,我们需要大量的数据,而在印度手语(ISL)方面尤为缺乏。本文介绍了一个大规模的孤立ISL数据集和一种基于骨架图结构的新颖手语识别模型。该数据集涵盖了聋人群体日常使用的2002个常用词汇,由20名(10名男性和10名女性)成年聋人手势表演者录制(包含40033段视频)。我们提出了一种名为分层窗口图注意力网络(Hierarchical Windowed Graph Attention Network, HWGAT)的手语识别模型,利用人体上半身骨架图来捕捉不同的动作特征。HWGAT通过关注由人体骨架图引发的不同身体部位,尝试捕捉具有区分性的运动。我们通过广泛的实验评估了所提出数据集的实用性和模型的有效性。我们在提出的ISL数据集上预训练了该模型,并在其他不同的手语数据集上进行了微调,与现有的基于关键点的最先进模型相比,在INCLUDE、LSA64、AUTSL和WLASL数据集上的性能分别提高了1.10、0.46、0.78和6.84个百分点。关键词:自动手语识别、印度手语、大规模数据集、骨架图结构、分层窗口图注意力网络(HWGAT)、计算机视觉

分层窗口图注意力网络及大规模数据集在孤立印度手语识别中的应用 | 最新论文 | HyperAI超神经