HyperAIHyperAI

Command Palette

Search for a command to run...

Reconnaissance des langues des signes multi-modales sensible au squelette

Songyao Jiang Bin Sun Lichen Wang Yue Bai Kunpeng Li Yun Fu

Résumé

La langue des signes est couramment utilisée par les personnes sourdes ou atteintes de troubles de la parole pour communiquer, mais son apprentissage exige un effort considérable. La reconnaissance de la langue des signes (SLR, Sign Language Recognition) vise à réduire l’écart entre les utilisateurs de la langue des signes et les autres en reconnaissant les signes à partir de vidéos. Il s’agit d’une tâche essentielle mais particulièrement difficile, car la langue des signes implique des mouvements rapides et complexes des gestes manuels, de la posture corporelle, voire des expressions faciales. Récemment, la reconnaissance d’actions basée sur les squelettes attire une attention croissante en raison de son indépendance vis-à-vis des variations de fond et de sujet. Toutefois, la SLR basée sur les squelettes reste encore en phase d’exploration, en raison du manque d’étiquetages précis des points clés des mains. Quelques travaux ont tenté d’utiliser des détecteurs de mains combinés à des estimateurs de posture pour extraire les points clés des mains et apprendre à reconnaître la langue des signes via des réseaux neuronaux, mais aucun d’entre eux n’a surpassé les méthodes basées sur les données RGB. À cet effet, nous proposons un nouveau cadre de reconnaissance de la langue des signes multi-modale conscient des squelettes (SAM-SLR), exploitant de manière efficace les informations multi-modales afin d’atteindre un taux de reconnaissance plus élevé. Plus précisément, nous introduisons un réseau de convolution sur graphe dédié à la langue des signes (SL-GCN) pour modéliser les dynamiques intégrées, ainsi qu’un nouveau réseau de convolution séparable espace-temps (SSTCN) pour exploiter pleinement les caractéristiques squelettiques. Les modalités RGB et profondeur sont également intégrées et combinées dans notre cadre afin de fournir des informations globales complémentaires aux méthodes basées sur les squelettes SL-GCN et SSTCN. En conséquence, SAM-SLR obtient les meilleurs résultats sur les deux pistes RGB (98,42 %) et RGB-D (98,53 %) lors du concours 2021 « Looking at People Large Scale Signer Independent Isolated SLR Challenge ». Le code source est disponible à l’adresse suivante : https://github.com/jackyjsy/CVPR21Chal-SLR


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp