9 天前

C2SLR:一致性增强的连续手语识别

{Brian Mak, Ronglai Zuo}
C2SLR:一致性增强的连续手语识别
摘要

大多数基于深度学习的连续手语识别(CSLR)模型的主干网络通常由视觉模块、序列模块和对齐模块组成。然而,仅依靠单一的连接时序分类(CTC)损失,这类CSLR主干网络难以获得充分训练。为此,本文从一致性角度提出两种辅助约束,以增强主干网络的性能。第一种约束旨在提升视觉模块的训练效果,该模块容易面临训练不足的问题。具体而言,由于手语信息主要通过手语者面部和手部动作传递,我们向视觉模块中引入一个基于关键点引导的空间注意力机制,以强制模型聚焦于具有信息量的区域,从而实现空间注意力一致性。然而,仅增强视觉模块可能无法充分发挥主干网络的潜力。受启发于视觉模块与序列模块输出的特征均表征同一句手语这一事实,我们进一步在两者之间施加句子嵌入一致性约束,以提升两者的表征能力。在三个代表性主干网络上的实验结果验证了这两种约束的有效性。尤为突出的是,采用基于Transformer的主干网络时,我们的模型在PHOENIX-2014、PHOENIX-2014-T和CSL三个基准数据集上均达到了当前最优或具有竞争力的性能表现。