Sur l'utilité des poses de main en 3D pour la reconnaissance d'actions

La posture de la main en 3D est une modalité sous-exploitée pour la reconnaissance d'actions. Les postures sont compactes mais informatives et peuvent grandement bénéficier aux applications disposant de ressources de calcul limitées. Cependant, les postures seules offrent une compréhension incomplète des actions, car elles ne peuvent pas pleinement capturer les objets et les environnements avec lesquels les humains interagissent. Nous proposons HandFormer, un nouveau transformateur multimodal, pour modéliser efficacement les interactions main-objet. HandFormer combine des postures de main en 3D à une haute résolution temporelle pour un modèle de mouvement finement granulaire avec des images RGB échantillonnées de manière éparses pour l'encodage des sémantiques de scène. En observant les caractéristiques uniques des postures de main, nous factorisons temporellement la modélisation de la main et représentons chaque joint par ses trajectoires à court terme. Cette représentation factorisée des postures combinée à des échantillons RGB épars est remarquablement efficace et très précise. Le HandFormer unimodal utilisant uniquement des postures de main surpasse les méthodes existantes basées sur le squelette avec cinq fois moins d'opérations flottantes (FLOPs). Avec l'ajout des images RGB, nous obtenons de nouvelles performances record sur Assembly101 et H2O, avec des améliorations significatives dans la reconnaissance d'actions égocentriques.