Dans mon point de vue, dans mes mains : reconnaissance précise de la pose 2D égocentrique de la main et des actions

La reconnaissance d’actions est essentielle pour la compréhension des vidéos égocentriques, permettant une surveillance automatique et continue des activités de la vie quotidienne (ADL) sans effort de la part de l’utilisateur. La littérature existante se concentre principalement sur l’entrée en pose 3D de la main, ce qui nécessite des réseaux d’estimation de profondeur coûteux en calcul ou l’utilisation d’un capteur de profondeur inconfortable. En revanche, peu de travaux se sont penchés sur la compréhension de la pose 2D de la main pour la reconnaissance d’actions égocentriques, malgré la disponibilité sur le marché de lunettes intelligentes conviviales capables de capturer une seule image RGB. Notre étude vise à combler cette lacune en explorant le domaine de l’estimation de la pose 2D de la main pour la reconnaissance d’actions égocentriques, en apportant deux contributions majeures. Premièrement, nous proposons deux nouvelles approches d’estimation de pose 2D de la main : EffHandNet pour l’estimation d’une seule main, et EffHandEgoNet, spécifiquement conçu pour une perspective égocentrique, permettant de capturer les interactions entre les mains et les objets. Ces deux méthodes surpassent les modèles de pointe sur les benchmarks publics H2O et FPHA. Deuxièmement, nous présentons une architecture robuste de reconnaissance d’actions à partir de poses 2D de la main et d’objets. Cette méthode intègre EffHandEgoNet et une méthode de reconnaissance d’actions basée sur un transformateur. Évaluée sur les jeux de données H2O et FPHA, notre architecture présente un temps d’inférence plus rapide et atteint une précision de 91,32 % et 94,43 % respectivement, dépassant ainsi les méthodes de pointe, y compris celles basées sur la 3D. Nos résultats démontrent qu’utiliser des données squelettiques 2D constitue une approche robuste pour la compréhension des actions égocentriques. Des évaluations étendues et des études d’ablation montrent l’impact de l’approche d’estimation de la pose des mains, ainsi que l’influence de chaque type d’entrée sur la performance globale.