HyperAIHyperAI
il y a 9 jours

Reconnaissance des signes au niveau des mots à l’aide de réseaux neuronaux multi-flux axés sur les régions locales et les informations squelettiques

Mizuki Maruyama, Shrey Singh, Katsufumi Inoue, Partha Pratim Roy, Masakazu Iwamura, Michifumi Yoshioka
Reconnaissance des signes au niveau des mots à l’aide de réseaux neuronaux multi-flux axés sur les régions locales et les informations squelettiques
Résumé

La reconnaissance des signes au niveau du mot (WSLR, Word-level Sign Language Recognition) a suscité un intérêt croissant, car elle est censée surmonter la barrière de communication entre les personnes ayant un trouble de la parole et celles qui entendent normalement. Dans le cadre du problème de WSLR, une méthode initialement conçue pour la reconnaissance d’actions a atteint l’état de l’art en termes de précision. En effet, il semble raisonnable qu’une telle méthode se comporte bien sur la WSLR, puisque la langue des signes est souvent considérée comme une action. Toutefois, une évaluation attentive des tâches révèle que les objectifs de la reconnaissance d’actions et de la WSLR sont fondamentalement différents. Par conséquent, dans cet article, nous proposons une nouvelle méthode de WSLR qui intègre spécifiquement des informations particulièrement pertinentes pour cette tâche. Nous la réalisons à travers un réseau neuronal à plusieurs flux (MSNN, Multi-Stream Neural Network), composé de trois flux : 1) un flux de base, 2) un flux d’images locales, et 3) un flux squelettique. Chaque flux est conçu pour traiter un type particulier d’information : le flux de base s’occupe des mouvements rapides et détaillés des mains et du corps, le flux d’images locales se concentre sur les formes des mains et les expressions faciales, tandis que le flux squelettique capture les positions relatives du corps et des deux mains. Cette approche permet de combiner efficacement différents types de données pour une analyse plus complète des gestes. Les résultats expérimentaux sur les jeux de données WLASL et MS-ASL démontrent l’efficacité de la méthode proposée : elle améliore la précision Top-1 de l’ordre de 10 % à 15 % par rapport aux méthodes conventionnelles.