Multi-HMR : Récupération de Maillage Humain Complexe à Plein Corps pour Plusieurs Personnes en Une Seule Étape

Nous présentons Multi-HMR, un modèle de prédiction en une seule étape robuste pour la reconstruction de maillages humains 3D multi-personnes à partir d'une seule image RGB. Les prédictions englobent l'ensemble du corps, c'est-à-dire y compris les mains et les expressions faciales, en utilisant le modèle paramétrique SMPL-X et la localisation 3D dans le système de coordonnées de la caméra. Notre modèle détecte les personnes en prédissant des cartes thermiques 2D grossières des emplacements des personnes, à partir des caractéristiques produites par un backbone standard de Vision Transformer (ViT). Il prédit ensuite leur posture, forme et localisation 3D corporelles grâce à un nouveau module de cross-attention appelé Human Prediction Head (HPH), où une requête s'intéresse à l'ensemble des caractéristiques pour chaque personne détectée. Étant donné que la prédiction directe de postures fines des mains et du visage en une seule étape, c'est-à-dire sans recourir à des découpages explicites autour des parties du corps, est difficile à apprendre à partir des données existantes, nous introduisons CUFFS, le dataset Close-Up Frames of Full-Body Subjects, contenant des images de personnes proches de la caméra avec diverses postures de mains. Nous montrons que son intégration dans les données d'entraînement améliore encore davantage les prédictions, particulièrement pour les mains. Multi-HMR prend également optionnellement en compte les paramètres intrinsèques de la caméra, si disponibles, en encodant les directions des rayons de la caméra pour chaque token d'image. Cette conception simple atteint d'excellentes performances sur les bancs d'essai corporels complets et partiels simultanément : un backbone ViT-S sur des images $448{\times}448$ fournit déjà un modèle rapide et compétitif, tandis que des modèles plus grands et des résolutions plus élevées obtiennent des résultats au niveau de l'état de l'art.