HyperAIHyperAI
il y a 15 jours

IVT : Un Transformateur Vidéo guidé par l'instance pour l'estimation de posture 3D en bout-en-bout

Zhongwei Qiu, Qiansheng Yang, Jian Wang, Dongmei Fu
IVT : Un Transformateur Vidéo guidé par l'instance pour l'estimation de posture 3D en bout-en-bout
Résumé

L'estimation 3D de la posture humaine à partir de vidéos vise à localiser les coordonnées 3D des articulations humaines à partir de séquences vidéo. Les approches récentes basées sur les transformateurs se concentrent sur la capture des informations spatio-temporelles à partir de poses 2D séquentielles, mais ne parviennent pas à modéliser efficacement les caractéristiques de profondeur contextuelles, car les informations visuelles de profondeur sont perdues lors de l'étape d'estimation des poses 2D. Dans ce travail, nous simplifions ce paradigme en un cadre end-to-end, appelé Instance-guided Video Transformer (IVT), qui permet d'apprendre efficacement les informations de profondeur contextuelles spatio-temporelles à partir des caractéristiques visuelles et de prédire directement les poses 3D à partir des cadres vidéo. Plus précisément, nous formulons d'abord les cadres vidéo comme une série de tokens guidés par des instances, chaque token étant chargé de prédire la pose 3D d'une instance humaine. Ces tokens contiennent des informations sur la structure corporelle, car ils sont extraits sous la guidance des décalages des articulations par rapport au centre du corps. Ensuite, ces tokens sont envoyés dans IVT pour l'apprentissage des informations contextuelles spatio-temporelles de profondeur. Par ailleurs, nous proposons un mécanisme d'attention guidée par instance à plusieurs échelles afin de gérer les variations d'échelle entre plusieurs personnes. Enfin, les poses 3D de chaque personne sont décodées à partir des tokens guidés par instance par régression de coordonnées. Des expériences menées sur trois benchmarks largement utilisés pour l'estimation de poses 3D montrent que le modèle IVT atteint des performances de pointe.

IVT : Un Transformateur Vidéo guidé par l'instance pour l'estimation de posture 3D en bout-en-bout | Articles de recherche récents | HyperAI