9 天前

StepNet:用于孤立手语识别的时空部件感知网络

Xiaolong Shen, Zhedong Zheng, Yi Yang
StepNet:用于孤立手语识别的时空部件感知网络
摘要

手语识别(Sign Language Recognition, SLR)的目标是帮助听力障碍或聋哑人士克服沟通障碍。现有的大多数方法通常可分为两类:基于骨骼(Skeleton-based)的方法和基于RGB图像(RGB-based)的方法。然而,这两类方法均存在各自的局限性:基于骨骼的方法忽略了面部表情信息,而基于RGB图像的方法通常无法充分捕捉手部的细粒度结构特征。为克服上述双重局限,本文提出一种全新的框架——时空部件感知网络(Spatial-temporal Part-aware network, StepNet),该框架基于RGB图像中的部件信息构建。顾名思义,StepNet由两个核心模块组成:部件级空间建模(Part-level Spatial Modeling)与部件级时间建模(Part-level Temporal Modeling)。其中,部件级空间建模模块能够在无需任何关键点标注的前提下,自动在特征空间中捕捉与外观相关的属性,如手部和面部等关键视觉成分;而部件级时间建模模块则通过隐式挖掘长短期上下文信息,有效捕捉随时间演变的相关语义特征。大量实验结果表明,得益于其时空建模机制,StepNet在三个广泛使用的手语识别基准数据集上均取得了具有竞争力的性能表现:在WLASL数据集上达到56.89%的单实例Top-1准确率,在NMFs-CSL数据集上达到77.2%,在BOBSL数据集上达到77.1%。此外,所提出的方法还兼容光流输入,并可通过与光流特征融合进一步提升性能。我们期望本研究能为听力障碍人士的智能沟通辅助系统提供一个有价值的初步探索。