Récupération de la Maillée Corporelle 3D en Une Étape avec Transformer Conscient des Composants

La récupération de maillage corporel complet vise à estimer les paramètres du corps humain en 3D, du visage et des mains à partir d'une seule image. Il est difficile d'effectuer cette tâche avec un seul réseau en raison des problèmes de résolution, c'est-à-dire que le visage et les mains sont généralement situés dans des régions extrêmement petites. Les travaux existants détectent généralement les mains et les visages, augmentent leur résolution pour les introduire dans un réseau spécifique afin de prédire les paramètres, puis fusionnent finalement les résultats. Bien que ce pipeline copier-coller puisse capturer les détails fins du visage et des mains, il est difficile de restaurer les connexions entre différentes parties lors de la fusion tardive, ce qui entraîne une rotation 3D improbable et une posture artificielle.Dans ce travail, nous proposons un pipeline en une étape pour la récupération expressive de maillage corporel complet, nommé OSX, sans réseaux distincts pour chaque partie. Plus précisément, nous concevons un Transformateur Conscient des Composants (Component Aware Transformer - CAT) composé d'un encodeur global du corps et d'un décodeur local du visage/mains. L'encodeur prédit les paramètres du corps et fournit une carte de caractéristiques de haute qualité au décodeur, qui effectue un schéma d'échantillonnage-coupe au niveau des caractéristiques pour extraire des caractéristiques spécifiques aux parties à haute résolution et utilise une attention déformable guidée par les points clés pour estimer précisément la main et le visage. Le pipeline complet est simple mais efficace, sans aucun traitement manuel postérieur, et évite naturellement les prédictions improbables.Des expériences exhaustives démontrent l'efficacité d'OSX. Enfin, nous avons construit un jeu de données Upper-Body (UBody) à grande échelle avec des annotations corporelles complètes 2D et 3D de haute qualité. Il contient des personnes avec des corps partiellement visibles dans diverses situations réelles afin de combler l'écart entre la tâche de base et les applications downstream (en aval).