
摘要
基于视觉的手语识别旨在帮助聋哑人群体与他人进行交流。然而,目前大多数现有的手语数据集仅涵盖少量词汇,受限于词汇量较小,由此训练出的模型难以在实际场景中应用。本文提出一个全新的大规模词级美国手语(Word-Level American Sign Language, WLASL)视频数据集,包含超过2000个词汇,由100多位手语使用者完成录制。该数据集将向研究社区公开,据我们所知,这是迄今为止规模最大的公开手语数据集,可有效推动词级手语识别的研究进展。基于这一大规模新数据集,我们能够对多种深度学习方法在词级手语识别任务中进行大规模实验,并评估其性能表现。具体而言,我们实现了两种不同类型的模型进行对比分析:(i)基于整体视觉外观的方法,以及(ii)基于2D人体姿态的方法。这两种模型均作为有价值的基准模型,有助于推动该领域方法的标准化评估与比较。此外,我们还提出一种新型的姿态驱动时序图卷积网络(Pose-TGCN),能够同时建模人体姿态轨迹中的空间与时间依赖关系,显著提升了基于姿态方法的识别性能。实验结果表明,基于姿态与基于外观的模型在2000个词汇/词素的Top-10准确率上均达到了约66%的水平,验证了本数据集的有效性,同时也揭示了该任务所面临的挑战。本研究提供的数据集及基线深度学习模型已公开发布,访问地址为:\url{https://dxli94.github.io/WLASL/}。