摘要
本文提出了一种基于Transformer的新型连续手语识别(Continuous Sign Language Recognition, CSLR)方法,旨在解决传统Transformer在捕捉手语局部语义上下文方面存在的不足。具体而言,所提出的方法依赖于两个关键组件:(a)基于窗口的RNN模块,用于捕获局部时序上下文信息;(b)经过增强的Transformer编码器,通过引入高斯偏置(Gaussian bias)和相对位置信息以强化局部建模能力,并利用多头注意力机制实现全局结构建模。为进一步提升模型性能,我们设计了一种多模态框架,将该方法同时应用于外观特征流与运动特征流,并通过引导式CTC(Connectionist Temporal Classification)技术对两者输出的后验概率进行对齐。此外,通过引入知识蒸馏损失,实现了视觉特征与词素序列之间的对齐。在两个主流的德语连续手语识别数据集上的实验结果表明,所提模型具有显著优越性。