6 个月前

摘要

自动手语识别（SLR）仍面临诸多挑战，尤其是在仅使用RGB视频（即不依赖深度信息或专用手套输入）且在签名者无关（Signer-Independent, SI）框架下，这主要由于不同个体之间手语表达存在显著差异。本文针对基于RGB视频的SI孤立手语识别问题，提出了一种创新的深度学习框架，该框架融合了多模态外观信息与基于骨骼的信息。具体而言，本文在手语识别领域首次提出三个关键组件：（i）对ResNet2+1D网络进行改进，用于捕捉手语外观特征，其中将传统的空间与时间卷积替换为可变形卷积，从而兼具广泛的空间建模能力与对运动变化的自适应建模特性；（ii）提出一种新型时空图卷积网络（ST-GCN），其基于图卷积网络（GCN）的变体，引入权重与亲和力调制机制，以建模人体不同关节之间超出真实人体骨骼结构的多样化关联关系，随后结合自注意力层与时间卷积模块；（iii）采用“PIXIE”三维人体姿态与形状回归器，生成用于ST-GCN图结构构建的三维关节旋转参数化表示。所提出的系统将外观特征流与骨骼特征流进行融合，并在两个孤立手语数据集上进行了评估，分别对应土耳其语和希腊语手语。实验结果表明，该系统在希腊语数据集上超越了当前最先进方法，相对误差率降低达53%（绝对误差降低至2.45%）；在土耳其语数据集上，性能与现有最优系统持平。

源 PDF