HyperAIHyperAI
il y a 17 jours

Estimation légère de la posture 3D à plusieurs vues par représentation déconnectée caméra

Edoardo Remelli, Shangchen Han, Sina Honari, Pascal Fua, Robert Wang
Estimation légère de la posture 3D à plusieurs vues par représentation déconnectée caméra
Résumé

Nous proposons une solution légère pour reconstruire la pose 3D à partir d’images multi-vues capturées par des caméras calibrées spatialement. S’appuyant sur les avancées récentes en apprentissage de représentations interprétables, nous exploitons la géométrie 3D pour fusionner les images d’entrée en une représentation latente unifiée de la pose, déconnectée des points de vue des caméras. Cela nous permet de raisonner efficacement sur la pose 3D à travers différentes vues, sans avoir recours à des grilles volumétriques coûteuses en calcul. Notre architecture conditionne ensuite la représentation apprise à l’aide d’opérateurs de projection caméra afin de produire des détections 2D précises pour chaque vue, pouvant être facilement relevées en 3D grâce à une couche différentiable de transformation linéaire directe (DLT). Pour assurer une efficacité maximale, nous proposons une nouvelle implémentation de la DLT, qui est plusieurs ordres de grandeur plus rapide sur les architectures GPU que les méthodes classiques de triangulation basées sur la décomposition en valeurs singulières (SVD). Nous évaluons notre approche sur deux grands jeux de données de pose humaine (H36M et Total Capture) : notre méthode dépasse ou égale les meilleures méthodes volumétriques actuelles, tout en offrant, contrairement à celles-ci, une performance en temps réel.