HyperAIHyperAI
il y a 16 jours

Estimation directe de la posture 3D multi-vue multi-personne

Tao Wang, Jianfeng Zhang, Yujun Cai, Shuicheng Yan, Jiashi Feng
Estimation directe de la posture 3D multi-vue multi-personne
Résumé

Nous présentons Multi-view Pose transformer (MvP), une méthode pour estimer les poses 3D de plusieurs personnes à partir d’images multi-vues. Contrairement aux approches précédentes qui reposent sur des représentations volumétriques coûteuses ou sur la reconstruction de la pose 3D par personne à partir de plusieurs poses 2D détectées, MvP régresse directement les poses 3D de plusieurs personnes de manière élégante et efficace, sans dépendre d’étapes intermédiaires. Plus précisément, MvP représente les articulations squelettiques sous forme d’embeddings d’interrogation apprenables, qui s’attendent progressivement aux informations multi-vues provenant des images d’entrée afin de prédire directement les positions 3D réelles des articulations. Pour améliorer la précision de ce pipeline simple, MvP propose un schéma hiérarchique permettant une représentation concise des embeddings d’interrogation des articulations squelettiques de plusieurs personnes, ainsi qu’une méthode d’adaptation des requêtes dépendante de l’entrée. Par ailleurs, MvP introduit un nouveau mécanisme d’attention guidée géométriquement, appelé projective attention, pour fusionner plus précisément les informations entre vues pour chaque articulation. En outre, une opération appelée RayConv est conçue pour intégrer la géométrie caméra dépendante de la vue dans les représentations de caractéristiques, renforçant ainsi l’efficacité de l’attention projective. Nos expériences montrent que le modèle MvP surpasser les méthodes de pointe sur plusieurs benchmarks tout en étant beaucoup plus efficace. Notamment, il atteint un score de 92,3 % AP25 sur le défi difficile du dataset Panoptic, soit une amélioration de 9,8 % par rapport à l’approche précédente la plus performante [36]. MvP est généralisable et peut être étendu à la reconstruction de maillages corporels représentés par le modèle SMPL, ce qui le rend particulièrement utile pour modéliser les formes corporelles de plusieurs personnes. Le code et les modèles sont disponibles à l’adresse suivante : https://github.com/sail-sg/mvp.

Estimation directe de la posture 3D multi-vue multi-personne | Articles de recherche récents | HyperAI