THUNDR : Reconstruction 3D HumaN basée sur Transformer avec Marqueurs

Nous présentons THUNDR, une méthode basée sur les transformateurs et fondée sur un réseau de neurones profond pour reconstruire la posture et la forme 3D des personnes à partir d’images monochromatiques RGB. La pierre angulaire de notre approche réside dans une représentation intermédiaire 3D à l’aide de marqueurs, visant à combiner le pouvoir prédictif des architectures sans modèle (model-free) et les propriétés régularisatrices ainsi que la préservation anthropométrique offertes par un modèle statistique de surface humaine, tel que GHUM — un modèle 3D récent, expressif et complet du corps humain, entraîné de manière end-to-end. Notre nouvelle chaîne de prédiction basée sur les transformateurs est capable de se concentrer sur les régions de l’image pertinentes pour la tâche, supporte des régimes auto-supervisés et garantit que les solutions obtenues respectent les contraintes anthropométriques humaines. Nous obtenons des résultats de pointe sur les bases de données Human3.6M et 3DPW, tant pour les modèles entièrement supervisés que pour ceux auto-supervisés, dans la tâche d’inférence de la forme 3D humaine, des positions des articulations et de la translation globale. En outre, nous observons des performances de reconstruction 3D très robustes même pour des poses humaines complexes issues de scènes réelles (« in the wild »).