9 天前
基于多流神经网络的面向局部区域与骨骼信息的词级手语识别
Mizuki Maruyama, Shrey Singh, Katsufumi Inoue, Partha Pratim Roy, Masakazu Iwamura, Michifumi Yoshioka

摘要
词级手语识别(Word-level Sign Language Recognition, WSLR)因其有望打破听力无障碍人群与言语障碍者之间的沟通障碍而受到广泛关注。在WSLR任务中,当前最先进的识别准确率已由一种专为动作识别设计的方法实现。尽管从直觉上看,动作识别方法在WSLR任务上表现优异似乎合情合理——毕竟手语可被视为一种动作——但对两类任务的深入分析表明,动作识别与WSLR在本质上存在显著差异。因此,本文提出一种新型WSLR方法,专门考虑了对WSLR任务具有特殊价值的信息。该方法通过一个多流神经网络(Multi-Stream Neural Network, MSNN)实现,包含三个并行流:1)基础流(base stream),2)局部图像流(local image stream),3)骨骼流(skeleton stream)。各流分别处理不同类型的信息:基础流用于捕捉手部与身体的快速、精细运动;局部图像流聚焦于手部形状与面部表情;骨骼流则建模身体及双手之间的相对空间位置关系。该架构能够融合多种模态的数据,实现更全面的手势分析。在WLASL与MS-ASL两个公开数据集上的实验结果表明,所提方法具有显著优势,相较于传统方法,Top-1准确率提升了约10%–15%。