9 天前

无需帧序列约束的手语识别:对阿根廷手语的可行性验证

{Alejandro Rosete, Laura Lanzarini, César Estrebou, Facundo Quiroga, Franco Ronchetti}
摘要

自动手语识别(Sign Language Recognition, SLR)是人机交互与机器学习领域中的一个重要研究课题。一方面,该任务具有高度复杂性,需要融合视频处理、图像处理、智能系统以及语言学等多个知识领域的技术;另一方面,实现鲁棒的手语识别有助于促进手语翻译进程,推动听障人士的社会融合,并为听力正常人群提供手语教学支持。现有的SLR系统通常采用隐马尔可夫模型(Hidden Markov Models)、动态时间规整(Dynamic Time Warping)或类似方法来识别手语动作。这些技术依赖于帧序列的时序结构,以减少识别过程中的假设空间。本文提出了一种通用的概率模型,用于手语分类,该模型结合了基于不同特征类型(如位置、运动轨迹和手形)的子分类器。在所有分类步骤中,该模型均采用“词袋”(bag-of-words)方法,旨在验证“时序顺序并非识别所必需”这一假设。实验结果表明,该模型在包含64个手语类别、共3200个样本的阿根廷手语数据集上达到了97%的识别准确率,为“无需依赖时序信息即可实现有效识别”提供了有力证据。