6 个月前

摘要

连续手语识别（Continuous Sign Language Recognition, CSLR）旨在从未经剪辑的手语视频中识别出手语动作，并将其转换为文本形式的词素（glosses）。CSLR的一项核心挑战在于实现视频序列与词素序列之间的有效跨模态对齐，以提升视频表征能力。然而，现有的跨模态对齐范式往往忽视了文本语法在学习全局时序上下文过程中的引导作用，从而对识别性能产生不利影响。为克服这一局限，本文提出一种去噪-对比对齐（Denoising-Contrastive Alignment, DCA）新范式。DCA 创新性地利用文本语法知识，通过两种互补策略增强视频表征：一是从判别角度建模手势与词素之间的实例对应关系，二是从生成角度对齐二者之间的全局上下文。具体而言，DCA 采用对比损失实现手势与词素在实例层面的灵活对应；在此基础上，进一步通过以视频表征为指导，对词素表示进行去噪处理，从而建模视频与词素序列间的全局上下文对齐。此外，DCA 引入梯度调制机制，优化对齐与识别过程中的梯度传播，提升学习效率与稳定性。通过融合词素级别与全局上下文知识，DCA 显著增强了CSLR任务中的视频表征能力。在多个公开基准数据集上的实验结果验证了DCA的有效性，并证实其在提升视频表征方面的可行性。

源 PDF