HyperAIHyperAI
il y a 17 jours

A2J-Transformer : Réseau Transformer Ancre-à-Joint pour l'estimation de la pose 3D de mains en interaction à partir d'une seule image RGB

Changlong Jiang, Yang Xiao, Cunlin Wu, Mingyang Zhang, Jinghong Zheng, Zhiguo Cao, Joey Tianyi Zhou
A2J-Transformer : Réseau Transformer Ancre-à-Joint pour l'estimation de la pose 3D de mains en interaction à partir d'une seule image RGB
Résumé

L’estimation de la pose 3D d’une main interagissant à partir d’une seule image RGB constitue une tâche particulièrement difficile, en raison de l’occlusion auto- et inter-sévère des mains, des motifs d’apparence similaires entre les deux mains, du problème mal posé de la correspondance entre les positions 2D et 3D des articulations, etc. Pour relever ces défis, nous proposons d’étendre A2J — la méthode de pointe actuelle pour l’estimation de la pose 3D d’une seule main basée sur la profondeur — au domaine RGB dans le cadre de mains interagissant. Notre idée principale consiste à doter A2J d’une capacité renforcée de prise en compte à la fois des détails locaux fins des mains en interaction et des indices articulés globaux entre les articulations. À cette fin, A2J est révisé dans un cadre d’encodage-décodage non local fondé sur les Transformers, donnant naissance à A2J-Transformer. Ce modèle présente trois avantages majeurs par rapport à A2J. Premièrement, une attention mutuelle entre des points d’ancrage locaux est établie afin de leur conférer une conscience du contexte spatial global, permettant ainsi une meilleure capture des indices articulés et une meilleure résistance à l’occlusion. Deuxièmement, chaque point d’ancrage est traité comme une requête apprenable dotée d’un apprentissage adaptatif des caractéristiques, ce qui améliore sa capacité d’ajustement aux motifs, contrairement à A2J où tous les points d’ancrage partagent une même représentation locale. Enfin, et non des moindres, les points d’ancrage sont positionnés dans l’espace 3D, au lieu de l’être dans l’espace 2D comme dans A2J, permettant ainsi une exploitation optimale de la prédiction de pose 3D. Des expériences menées sur le jeu de données exigeant InterHand 2.6M montrent que A2J-Transformer atteint des performances de pointe dans le cadre sans modèle (amélioration de 3,38 mm en MPJPE dans le cas de deux mains) et peut également être appliqué au domaine de la profondeur avec une forte généralisation.

A2J-Transformer : Réseau Transformer Ancre-à-Joint pour l'estimation de la pose 3D de mains en interaction à partir d'une seule image RGB | Articles de recherche récents | HyperAI