
摘要
本研究提出了一种基于深度神经网络的连续手语(Sign Language, SL)识别框架,能够直接将手语视频序列转录为有序的词素(gloss)标签序列。以往的连续手语识别方法通常采用隐马尔可夫模型(Hidden Markov Models, HMMs),但其在捕捉时序信息方面能力有限。相比之下,本文所提出的架构采用深层卷积神经网络结合堆叠式时序融合层作为特征提取模块,并以双向循环神经网络作为序列学习模块,显著提升了对复杂时序模式的建模能力。为在数据有限的情况下充分挖掘深度神经网络的表征潜力,本文进一步提出一种迭代优化机制:首先训练端到端的识别模型以生成初步的对齐建议(alignment proposal),随后将该对齐建议作为强监督信号,直接用于微调特征提取模块。该训练过程可迭代执行,持续提升识别性能。此外,本研究还探索了RGB图像与光流信息在手语识别中的多模态融合策略,进一步增强了模型对动态手势和运动信息的感知能力。所提方法在两个具有挑战性的手语识别基准数据集上进行了评估,结果表明,相较于现有最先进方法,本方法在两个数据集上均实现了超过15%的相对性能提升。