
摘要
手语是一种视觉语言,通过手势形状、面部表情、身体动作等多种视觉元素传递信息。由于这些视觉成分的组合存在固有局限性,手语中存在大量视觉上难以区分的手势(即VISigns),这严重制约了视觉神经网络对手语的识别能力。为缓解该问题,本文提出一种自然语言辅助的手语识别框架(NLA-SLR),充分利用词素(gloss,即手语标注)所蕴含的语义信息。首先,针对语义相近的VISigns,我们提出一种语言感知的标签平滑方法:为每个训练样本生成软标签,其平滑权重基于词素之间的归一化语义相似度计算,从而缓解训练过程中的混淆问题。其次,针对语义差异较大的VISigns,我们设计了一种跨模态Mixup技术,将视觉特征与词素特征进行融合,并在融合标签的监督下,进一步增强不同手势之间的可分性。此外,我们还引入一种新型骨干网络——视频关键点网络(video-keypoint network),该网络不仅能联合建模RGB视频与人体关键点信息,还能从具有不同时间感受野的手语视频中提取并迁移知识。实验结果表明,所提方法在三个广泛使用的手语识别基准数据集(MSASL、WLASL和NMFs-CSL)上均取得了当前最优性能。代码已开源,地址为:https://github.com/FangyunWei/SLRT。