
摘要
本研究的目标是高效提取连续手语识别(Continuous Sign Language Recognition, CSLR)中的空间特征与动态特征。为此,我们采用了一种双路径慢-快网络(two-pathway SlowFast network),其中两条路径以不同的时间分辨率运行,分别用于捕捉空间信息(如手部姿态、面部表情)和动态信息(如动作轨迹)。此外,我们提出了两种专为CSLR特性量身定制的特征融合方法:(1)双向特征融合(Bi-directional Feature Fusion, BFF),能够实现动态语义与空间语义之间的双向传递;(2)路径特征增强(Pathway Feature Enhancement, PFE),通过辅助子网络丰富动态与空间表征,同时避免引入额外的推理开销。由此,我们的模型在并行过程中进一步强化了空间与动态特征的表达能力。实验结果表明,所提出的框架在多个主流CSLR数据集(包括PHOENIX14、PHOENIX14-T和CSL-Daily)上均超越了当前最先进的性能水平。