9 天前

基于手势姿态的Transformer用于词级手语识别

{Marek Hrúz, Matyáš Boháček}
基于手势姿态的Transformer用于词级手语识别
摘要

本文提出了一种基于Transformer模型的逐词手语识别系统。我们致力于实现计算成本较低的解决方案,因为我们认为此类识别系统在手持设备上的应用具有巨大潜力。我们的识别方法基于对人体姿态的估计,以二维关键点坐标的形式表示。为此,我们提出了一种鲁棒的姿态归一化方法,该方法充分考虑了手语表达的空间特性,并将手部姿态在独立于身体姿态的局部坐标系中进行处理。实验结果表明,该归一化方法对提升所提系统识别精度具有显著影响。此外,我们引入了多种身体姿态增强策略,进一步提升了识别性能,其中包含一种新颖的顺序关节旋转增强方法。在所有模块协同工作下,我们在WLASL和LSA64两个数据集上均取得了当前最优的Top-1识别性能。在WLASL数据集的100词子集上,系统成功识别了63.18%的手语样本,相较于先前最优方法实现了5%的相对提升;在300词子集上,识别率达到43.78%,相对提升达3.8%。在LSA64数据集上,我们报告的测试识别准确率为100%。