
大多数基于深度学习的连续手语识别(Continuous Sign Language Recognition, CSLR)模型采用相似的主干架构,通常包含视觉模块、序列模块和对齐模块。然而,由于训练样本有限,连接时序分类(Connectionist Temporal Classification, CTC)损失函数往往难以充分训练此类CSLR主干网络。为此,本文提出了三项辅助任务,以增强CSLR主干网络的性能。第一项任务旨在提升对训练数据不足问题尤为敏感的视觉模块,从“一致性”角度出发。具体而言,由于手语信息主要体现在手语使用者的面部表情和手势动作中,本文设计了一种关键点引导的空间注意力模块,强制视觉模块聚焦于具有信息量的区域,从而实现空间注意力的一致性。第二项任务注意到,视觉模块与序列模块的输出特征均表示同一句手语,为更充分挖掘主干网络的表达能力,本文在两个模块之间引入了句子嵌入一致性约束,以增强两者特征的表征能力。将上述辅助任务应用于训练的CSLR模型被命名为“一致性增强型CSLR”(Consistency-Enhanced CSLR),在签名人依赖(signer-dependent)的数据集上表现优异,这些数据集在训练与测试阶段均包含相同的签名人。为进一步提升模型在签名人无关(signer-independent)场景下的鲁棒性,本文进一步提出一种基于特征解耦的签名人移除模块(Signer Removal Module, SRM),用于从主干网络中剥离签名人相关特征。通过大量消融实验,验证了各项辅助任务的有效性。尤为突出的是,当采用基于Transformer的主干架构时,本文模型在五个主流基准数据集(PHOENIX-2014、PHOENIX-2014-T、PHOENIX-2014-SI、CSL和CSL-Daily)上均取得了当前最优或具有竞争力的性能表现。相关代码与模型已开源,地址为:https://github.com/2000ZRL/LCSA_C2SLR_SRM。