Keypoint Transformer : Résolution de l'identification des articulations dans les interactions complexes entre les mains et les objets pour une estimation précise de la posture 3D

Nous proposons une méthode robuste et précise pour estimer les poses 3D de deux mains en interaction rapprochée à partir d'une seule image couleur. Il s'agit d'un problème très complexe, car de grandes occultations et de nombreuses confusions entre les articulations peuvent survenir. Les méthodes actuelles résolvent ce problème en régressant une carte de chaleur pour chaque articulation, ce qui nécessite de résoudre simultanément deux problèmes : la localisation des articulations et leur reconnaissance. Dans cette étude, nous proposons de séparer ces tâches en utilisant un CNN (Convolutional Neural Network) pour localiser en premier lieu les articulations sous forme de points clés 2D, puis l'auto-attention entre les caractéristiques du CNN aux points clés pour les associer à l'articulation correspondante de la main. L'architecture résultante, que nous appelons "Transformateur de Points Clés" (Keypoint Transformer), est extrêmement efficace car elle atteint des performances au niveau de l'état de l'art avec environ la moitié du nombre de paramètres du modèle sur le jeu de données InterHand2.6M. Nous montrons également qu'elle peut être facilement étendue pour estimer la pose 3D d'un objet manipulé par une ou deux mains avec des performances élevées. De plus, nous avons créé un nouveau jeu de données comprenant plus de 75 000 images d'objets manipulés par deux mains, entièrement annotées en 3D, que nous mettrons à disposition du public.