Reconnaissance en temps réel des gestes de la main : Intégration de la fusion de données basée sur le squelette et du CNN multi-flux

La reconnaissance de gestes de la main (HGR) permet des interactions humain-ordinateur intuitives dans divers contextes réels. Cependant, les cadres existants peinent souvent à répondre aux exigences en temps réel essentielles pour les applications pratiques de HGR. Cette étude présente un cadre robuste basé sur le squelette pour la reconnaissance dynamique de gestes de la main, qui simplifie la reconnaissance de gestes dynamiques en une tâche de classification d'images statiques, réduisant ainsi efficacement les besoins en matériel et en calcul. Notre cadre utilise une technique de fusion au niveau des données pour encoder les données squelettiques 3D issues des gestes dynamiques en images spatio-temporelles RGB statiques. Il intègre une architecture CNN multi-flux spécialisée et optimisée bout à bout appelée Ensemble Tuner (e2eET), qui optimise les connexions sémantiques entre les représentations des données tout en minimisant les besoins en calcul. Testé sur cinq jeux de données de référence (SHREC'17, DHG-14/28, FPHA, LMDHG et CNR), le cadre a montré des performances compétitives par rapport à l'état de l'art. Sa capacité à supporter des applications HGR en temps réel a également été démontrée par son déploiement sur du matériel informatique standard grand public, mettant en évidence un faible latence et une utilisation minimale des ressources dans des conditions réelles. Le déploiement réussi de ce cadre souligne son potentiel pour améliorer les applications en temps réel dans des domaines tels que la réalité virtuelle/augmentée, l'intelligence ambiante et les technologies d'assistance, offrant une solution évolutique et efficace pour la reconnaissance de gestes dynamiques.