StepNet : Réseau Part-aware Spatio-temporel pour la Reconnaissance de Langue des Signes Isolées

L’objectif de la reconnaissance des langues des signes (SLR) est de permettre aux personnes sourdes ou malentendantes de surmonter les barrières de communication. La plupart des approches existantes se divisent typiquement en deux catégories : les méthodes basées sur les squelettes (skeleton-based) et celles basées sur les images RGB (RGB-based). Toutefois, ces deux approches présentent chacune des limites. Les méthodes basées sur les squelettes ne tiennent pas compte des expressions faciales, tandis que les approches RGB ignorent généralement les détails fins de la structure des mains. Pour surmonter ces deux limitations, nous proposons un nouveau cadre, nommé StepNet (Spatial-temporal Part-aware network), fondé sur les parties visuelles RGB. Comme son nom l’indique, ce modèle se compose de deux modules : un modèle spatial au niveau des parties et un modèle temporel au niveau des parties. En particulier, le module spatial au niveau des parties capture automatiquement, dans l’espace des caractéristiques, des propriétés basées sur l’apparence — telles que les mains et le visage — sans nécessiter d’étiquetages au niveau des points clés. D’un autre côté, le module temporel au niveau des parties exploite implicitement le contexte à court et à long terme afin de capturer les attributs pertinents au fil du temps. Des expériences étendues montrent que, grâce à ses modules spatial et temporel, StepNet atteint des performances compétitives en termes de précision Top-1 par instance sur trois benchmarks couramment utilisés pour la SLR : 56,89 % sur WLASL, 77,2 % sur NMFs-CSL et 77,1 % sur BOBSL. En outre, la méthode proposée est compatible avec l’entrée par flux optique et peut produire des résultats supérieurs lorsqu’elle est combinée avec cette dernière. Pour les personnes malentendantes, nous espérons que ce travail constitue une première étape prometteuse.