9 天前

基于可变形3D卷积与调制图卷积网络的手语识别

{Gerasimos Potamianos, Katerina Papadimitriou}
摘要

自动手语识别(SLR)仍面临诸多挑战,尤其是在仅使用RGB视频(即不依赖深度信息或专用手套输入)且在签名者无关(Signer-Independent, SI)框架下,这主要由于不同个体之间手语表达存在显著差异。本文针对基于RGB视频的SI孤立手语识别问题,提出了一种创新的深度学习框架,该框架融合了多模态外观信息与基于骨骼的信息。具体而言,本文在手语识别领域首次提出三个关键组件:(i)对ResNet2+1D网络进行改进,用于捕捉手语外观特征,其中将传统的空间与时间卷积替换为可变形卷积,从而兼具广泛的空间建模能力与对运动变化的自适应建模特性;(ii)提出一种新型时空图卷积网络(ST-GCN),其基于图卷积网络(GCN)的变体,引入权重与亲和力调制机制,以建模人体不同关节之间超出真实人体骨骼结构的多样化关联关系,随后结合自注意力层与时间卷积模块;(iii)采用“PIXIE”三维人体姿态与形状回归器,生成用于ST-GCN图结构构建的三维关节旋转参数化表示。所提出的系统将外观特征流与骨骼特征流进行融合,并在两个孤立手语数据集上进行了评估,分别对应土耳其语和希腊语手语。实验结果表明,该系统在希腊语数据集上超越了当前最先进方法,相对误差率降低达53%(绝对误差降低至2.45%);在土耳其语数据集上,性能与现有最优系统持平。