摘要
手语识别(Sign Language Recognition, SLR)是指从给定视频中自动解析出手语词汇(glosses)的任务。由于手语本身包含快速而复杂的动作,涵盖手势、身体姿态乃至面部表情,该研究领域在计算机视觉中面临巨大挑战。近年来,基于骨骼的动作识别方法因其能够独立处理个体差异与背景变化而受到越来越多关注。然而,现有的基于骨骼的SLR方法仍存在三大局限:(1)通常忽视真实手部姿态的重要性,多数研究在非真实性的骨骼表示上训练模型;(2)往往假设训练与推理阶段数据完整,且将不同身体部位之间的复杂关系整体建模,难以应对实际场景中的数据缺失问题;(3)对所有手语词汇采用统一处理方式,未能考虑不同词汇在骨骼表示上的复杂度差异。为提升手部骨骼表示的真实性,本文提出一种基于运动学的手部姿态校正方法,通过施加物理约束来增强手部姿态的合理性。针对数据缺失带来的影响,我们设计了一种特征解耦机制,专注于捕捉局部时空上下文信息。该机制能够独立且并行地建模各特征的局部上下文,从而显著提升SLR模型的鲁棒性。此外,为适应不同手语词汇在复杂度上的差异,我们进一步提出一种输入自适应推理方法,以在保证识别精度的同时优化计算效率。实验结果表明,所提方法具有显著有效性:在WLASL100数据集上,达到86.50%的Top-1准确率,相较此前最优方法相对提升2.39%;在LSA64数据集上,Top-1准确率达到99.84%,刷新了该数据集的最新性能纪录。相关代码与实验结果已公开发布于GitHub:https://github.com/mpuu00001/Siformer.git。