SHARP : Segmentation des mains et des bras par portée à l'aide de la pseudo-profondeur pour une estimation améliorée de la pose 3D égocentrique des mains et une reconnaissance d'action

La posture de la main représente une information clé pour la reconnaissance d'actions dans la perspective égocentrique, où l'utilisateur interagit avec des objets. Nous proposons d'améliorer l'estimation de la posture 3D de la main en perspective égocentrique, uniquement à partir de cadres RGB, en utilisant des images de profondeur pseudo-générées. En intégrant les techniques avancées d'estimation de profondeur à partir d'une seule image RGB, nous générons des représentations pseudo-profondes des cadres et utilisons les connaissances sur les distances pour segmenter les parties non pertinentes de la scène. Les cartes de profondeur obtenues sont ensuite utilisées comme masques de segmentation pour les cadres RGB. Les résultats expérimentaux sur le dataset H2O confirment la haute précision de la posture estimée avec notre méthode dans une tâche de reconnaissance d'actions. La posture 3D de la main, associée aux informations issues de la détection d'objets, est traitée par un réseau neuronal basé sur des transformateurs pour la reconnaissance d'actions, aboutissant à une précision de 91,73 %, surpassant toutes les méthodes actuelles. Les estimations de la posture 3D de la main atteignent des performances compétitives avec les méthodes existantes, avec une erreur moyenne de posture de 28,66 mm. Cette méthode ouvre de nouvelles perspectives pour l'utilisation d'informations sur les distances dans l'estimation égocentrique 3D de la posture de la main sans dépendre des capteurs de profondeur.