
摘要
尽管深度学习在连续手语识别(Continuous Sign Language Recognition, CSLR)领域取得了显著进展,但现有深度模型通常仅关注最具判别性的特征,而忽略了其他潜在非平凡且具有信息量的视觉内容。这一特性严重制约了模型学习不同视觉线索(如手部形状、面部表情和身体姿态)协同作用背后隐含视觉语法的能力。为此,本文通过将多线索学习机制融入神经网络设计,提出了一种时空多线索(Spatial-Temporal Multi-Cue, STMC)网络,以解决基于视觉的序列学习问题。所提出的STMC网络由空间多线索(Spatial Multi-Cue, SMC)模块和时间多线索(Temporal Multi-Cue, TMC)模块构成。SMC模块专注于空间表征,通过一个自包含的姿态估计分支,显式地分解不同视觉线索的特征表示。TMC模块则沿两条并行路径建模时间相关性,即线索内(intra-cue)与线索间(inter-cue)的动态关系,旨在保留各线索的独特性,同时挖掘多线索之间的协同作用。此外,本文设计了一种联合优化策略,实现STMC网络的端到端序列学习。为验证方法的有效性,我们在三个大规模CSLR基准数据集——PHOENIX-2014、CSL和PHOENIX-2014-T上进行了实验。实验结果表明,所提方法在所有三个基准上均取得了新的最先进性能(state-of-the-art)。