VTP : Transformateur volumétrique pour l'estimation 3D de posture multi-vue et multi-personne

Cet article présente le VTP (Volumetric Transformer Pose estimator), le premier cadre basé sur les transformateurs volumétriques 3D pour l’estimation de la posture humaine 3D à plusieurs personnes à partir de multiples vues. Le VTP agrège les caractéristiques provenant des points clés 2D issues de toutes les vues caméra, et apprend directement les relations spatiales dans l’espace volumétrique 3D de manière end-to-end. Les caractéristiques 3D ainsi agrégées sont traitées par des convolutions 3D avant d’être aplatis en embeddings séquentiels, puis introduites dans un transformateur. Une structure résiduelle est spécifiquement conçue pour améliorer davantage les performances. Par ailleurs, l’attention sparse Sinkhorn est intégrée afin de réduire la charge mémoire, un obstacle majeur pour les représentations volumétriques, tout en maintenant des performances exceptionnelles. La sortie du transformateur est à nouveau combinée aux caractéristiques issues des convolutions 3D par une architecture résiduelle. Le cadre proposé VTP intègre les performances élevées du transformateur avec les représentations volumétriques, offrant ainsi une alternative prometteuse aux architectures basées sur les réseaux de convolution. Des expériences menées sur les benchmarks Shelf, Campus et CMU Panoptic montrent des résultats encourageants en termes d’erreur moyenne par joint (MPJPE) et de pourcentage de parties correctement estimées (PCP). Le code source sera bientôt rendu disponible.