HyperAIHyperAI
il y a 2 mois

XNect : Capture de mouvement 3D en temps réel pour plusieurs personnes avec une seule caméra RGB

Dushyant Mehta; Oleksandr Sotnychenko; Franziska Mueller; Weipeng Xu; Mohamed Elgharib; Pascal Fua; Hans-Peter Seidel; Helge Rhodin; Gerard Pons-Moll; Christian Theobalt
XNect : Capture de mouvement 3D en temps réel pour plusieurs personnes avec une seule caméra RGB
Résumé

Nous présentons une approche en temps réel pour la capture de mouvement 3D de plusieurs personnes à plus de 30 images par seconde (fps) en utilisant une seule caméra RGB. Cette méthode fonctionne efficacement dans des scènes génériques qui peuvent contenir des occultations par des objets et d'autres personnes. Notre méthode s'articule en trois étapes successives.La première étape consiste en un réseau neuronal convolutif (CNN) qui estime les caractéristiques de pose 2D et 3D ainsi que les attributions d'identité pour toutes les articulations visibles de chaque individu. Nous contribuons à cette étape avec une nouvelle architecture de CNN appelée SelecSLS Net, qui utilise des nouvelles connexions sauteuses sélectives à longue et courte portée pour améliorer le flux d'information, permettant ainsi un réseau beaucoup plus rapide sans compromettre la précision.La deuxième étape utilise un réseau neuronal entièrement connecté pour transformer les caractéristiques de pose 2D et 3D potentiellement partielles (en raison des occultations) de chaque sujet en une estimation complète de la pose 3D pour chaque individu.La troisième étape applique l'ajustement du modèle squelettique spatio-temporel aux poses 2D et 3D prédites pour chaque sujet afin d'améliorer encore la conciliation entre les poses 2D et 3D, et d'imposer la cohérence temporelle. Notre méthode renvoie la pose squelettique complète sous forme d'angles articulaires pour chaque sujet. C'est une distinction clé supplémentaire par rapport aux travaux précédents qui ne produisent pas de résultats en termes d'angles articulaires d'un squelette cohérent en temps réel pour des scènes à plusieurs personnes.Le système proposé fonctionne sur du matériel grand public à une vitesse inédite de plus de 30 fps, avec des images d'entrée de taille 512x320, tout en atteignant une précision au niveau de l'état de l'art, ce que nous démontrerons sur une gamme variée de scènes réelles difficiles.

XNect : Capture de mouvement 3D en temps réel pour plusieurs personnes avec une seule caméra RGB | Articles de recherche récents | HyperAI