9 天前

用于连续手语识别的自互蒸馏学习

{Xilin Chen, Yuecong Min, Aiming Hao}
用于连续手语识别的自互蒸馏学习
摘要

近年来,深度学习显著推动了基于视频的连续手语识别(Continuous Sign Language Recognition, CSLR)的发展。目前,典型的CSLR网络架构通常由一个视觉模块和一个上下文模块组成:视觉模块侧重于捕捉空间信息和短时序特征,而上下文模块则专注于建模长时序依赖关系。训练过程中,通常采用连接时序分类(Connectionist Temporal Classification, CTC)损失函数。然而,由于反向传播中链式法则的限制,视觉模块难以有效调整以优化其视觉特征表示。这一局限导致上下文模块只能专注于上下文信息的优化,而无法在高效融合视觉与上下文信息之间实现平衡。为此,本文提出一种自互知识蒸馏(Self-Mutual Knowledge Distillation, SMKD)方法,旨在促使视觉模块与上下文模块分别聚焦于短时序与长时序信息,同时提升两者的判别能力。具体而言,视觉模块与上下文模块共享其对应分类器的权重,并共同使用CTC损失进行端到端联合训练。此外,CTC损失在实际应用中普遍存在“尖峰现象”(spike phenomenon),虽然该现象有助于识别手语词(gloss)中的关键帧,但也容易忽略其他非关键帧,导致视觉特征在训练初期即出现饱和问题。为缓解这一问题,本文进一步引入一种手语词分割(gloss segmentation)策略,有效缓解CTC损失带来的尖峰效应,降低视觉模块中特征饱和的发生概率。我们在两个主流的CSLR基准数据集——PHOENIX14和PHOENIX14-T上进行了大量实验。实验结果表明,所提出的SMKD方法在识别性能上显著优于现有方法,验证了其有效性与优越性。