9 天前

骨骼感知的多模态手语识别

Songyao Jiang, Bin Sun, Lichen Wang, Yue Bai, Kunpeng Li, Yun Fu
骨骼感知的多模态手语识别
摘要

手语是聋哑人士或言语障碍者常用的交流方式,但其掌握需要付出大量努力。手语识别(Sign Language Recognition, SLR)旨在通过从视频中识别手语动作,弥合手语使用者与非使用者之间的沟通鸿沟。该任务至关重要却极具挑战性,因为手语涉及手部动作、身体姿态乃至面部表情的快速而复杂的运动。近年来,基于骨骼的动作识别因其对主体与背景变化的独立性而受到越来越多关注。然而,由于缺乏手部关键点的标注数据,基于骨骼的手语识别仍处于探索阶段。尽管已有研究尝试结合手部检测器与姿态估计算法提取手部关键点,并利用神经网络进行手语识别,但这些方法在性能上尚未超越基于RGB图像的方法。为此,我们提出一种新型的骨骼感知多模态手语识别框架(Skeleton Aware Multi-modal SLR, SAM-SLR),旨在充分利用多模态信息以提升识别准确率。具体而言,我们设计了一种手语图卷积网络(Sign Language Graph Convolution Network, SL-GCN),用于建模手语动作中的内在动态特征;同时提出一种新型可分离时空卷积网络(Separable Spatial-Temporal Convolution Network, SSTCN),以有效挖掘骨骼特征。此外,本框架还融合了RGB与深度(depth)模态信息,将其与SL-GCN和SSTCN形成互补,提供全局上下文信息,增强模型对复杂手语动作的理解能力。实验结果表明,SAM-SLR在2021年“Looking at People”大规模无特定说话人孤立手语识别挑战赛中,分别在RGB(98.42%)和RGB-D(98.53%)两个赛道上取得了最高性能。相关代码已开源,地址为:https://github.com/jackyjsy/CVPR21Chal-SLR。

骨骼感知的多模态手语识别 | 最新论文 | HyperAI超神经