Reconnaissance des langues des signes multi-modales sensible au squelette

La langue des signes est couramment utilisée par les personnes sourdes ou atteintes de troubles de la parole pour communiquer, mais son apprentissage exige un effort considérable. La reconnaissance de la langue des signes (SLR, Sign Language Recognition) vise à réduire l’écart entre les utilisateurs de la langue des signes et les autres en reconnaissant les signes à partir de vidéos. Il s’agit d’une tâche essentielle mais particulièrement difficile, car la langue des signes implique des mouvements rapides et complexes des gestes manuels, de la posture corporelle, voire des expressions faciales. Récemment, la reconnaissance d’actions basée sur les squelettes attire une attention croissante en raison de son indépendance vis-à-vis des variations de fond et de sujet. Toutefois, la SLR basée sur les squelettes reste encore en phase d’exploration, en raison du manque d’étiquetages précis des points clés des mains. Quelques travaux ont tenté d’utiliser des détecteurs de mains combinés à des estimateurs de posture pour extraire les points clés des mains et apprendre à reconnaître la langue des signes via des réseaux neuronaux, mais aucun d’entre eux n’a surpassé les méthodes basées sur les données RGB. À cet effet, nous proposons un nouveau cadre de reconnaissance de la langue des signes multi-modale conscient des squelettes (SAM-SLR), exploitant de manière efficace les informations multi-modales afin d’atteindre un taux de reconnaissance plus élevé. Plus précisément, nous introduisons un réseau de convolution sur graphe dédié à la langue des signes (SL-GCN) pour modéliser les dynamiques intégrées, ainsi qu’un nouveau réseau de convolution séparable espace-temps (SSTCN) pour exploiter pleinement les caractéristiques squelettiques. Les modalités RGB et profondeur sont également intégrées et combinées dans notre cadre afin de fournir des informations globales complémentaires aux méthodes basées sur les squelettes SL-GCN et SSTCN. En conséquence, SAM-SLR obtient les meilleurs résultats sur les deux pistes RGB (98,42 %) et RGB-D (98,53 %) lors du concours 2021 « Looking at People Large Scale Signer Independent Isolated SLR Challenge ». Le code source est disponible à l’adresse suivante : https://github.com/jackyjsy/CVPR21Chal-SLR