HyperAIHyperAI
il y a 2 mois

Régression monulaire du corps expressif par l'attention guidée par le corps

Choutas, Vasileios ; Pavlakos, Georgios ; Bolkart, Timo ; Tzionas, Dimitrios ; Black, Michael J.
Régression monulaire du corps expressif par l'attention guidée par le corps
Résumé

Pour comprendre comment les personnes se déplacent, interagissent ou accomplissent des tâches, il est nécessaire de capturer rapidement et avec précision leur corps, visage et mains en 3D à partir d'une image RGB. La plupart des méthodes existantes ne se concentrent que sur certaines parties du corps. Quelques approches récentes reconstruisent des humains expressifs en 3D à partir d'images en utilisant des modèles de corps 3D qui incluent le visage et les mains. Ces méthodes sont basées sur l'optimisation et sont donc lentes, sujettes aux optima locaux et nécessitent des points clés 2D en entrée. Nous abordons ces limitations en introduisant ExPose (EXpressive POse and Shape rEgression), qui régresse directement le corps, le visage et les mains au format SMPL-X à partir d'une image RGB. Ce problème est difficile en raison de la haute dimensionnalité du corps et du manque de données d'entraînement expressives.De plus, les mains et les visages sont beaucoup plus petits que le corps, occupant très peu de pixels dans l'image. Cela rend l'estimation des mains et du visage complexe lorsque les images corporelles sont réduites pour être traitées par des réseaux neuronaux. Nous apportons trois contributions principales. Premièrement, nous compensons le manque de données d'entraînement en constituant un ensemble de données de SMPL-X ajusté sur des images naturelles. Deuxièmement, nous constatons que l'estimation du corps localise raisonnablement bien le visage et les mains. Nous introduisons une attention guidée par le corps pour les régions du visage et des mains dans l'image originale afin d'extraire des coupures à plus haute résolution qui sont ensuite alimentées à des modules de raffinement dédiés. Troisièmement, ces modules exploitent les connaissances spécifiques aux parties issues de jeux de données existants consacrés uniquement aux visages et aux mains.ExPose estime les humains expressifs en 3D avec une précision supérieure aux méthodes d'optimisation existantes, tout en représentant une fraction minime du coût computationnel. Nos données, modèle et code sont disponibles pour la recherche à l'adresse suivante : https://expose.is.tue.mpg.de .