AiOS : Estimation de la pose et de la forme humaine expressive en une seule étape

L'estimation expressive de la posture et de la forme humaine (également connue sous le nom de récupération du maillage 3D du corps entier) implique l'estimation du corps humain, des mains et des expressions. La plupart des méthodes existantes ont abordé cette tâche en deux étapes : d'abord, la détection des parties du corps humain à l'aide d'un modèle de détection prêt à l'emploi, puis l'inférence des différentes parties du corps humain individuellement. Malgré les résultats impressionnants obtenus, ces méthodes souffrent de 1) la perte d'informations contextuelles précieuses par recadrage, 2) l'introduction de distractions, et 3) le manque d'inter-associations entre différentes personnes et parties du corps, ce qui entraîne inévitablement une dégradation des performances, en particulier pour les scènes bondées. Pour remédier à ces problèmes, nous introduisons un cadre novateur en une seule étape, AiOS (All-in-One-Stage), pour la récupération expressive de la posture et de la forme humaine multiples sans étape supplémentaire de détection humaine. Plus précisément, notre méthode s'appuie sur DETR (DEtection TRansformer), qui traite la tâche de récupération du maillage 3D du corps entier multi-personne comme un problème de prédiction progressive d'ensemble avec diverses détections séquentielles. Nous concevons les jetons décodeurs et les adaptons à notre tâche. En particulier, nous utilisons d'abord un jeton humain pour sonder l'emplacement d'une personne dans l'image et coder les caractéristiques globales pour chaque instance, ce qui fournit une localisation approximative pour les blocs ultérieurs du transformer. Ensuite, nous introduisons un jeton lié aux articulations pour sonder les articulations humaines dans l'image et encoder des caractéristiques locales fines, qui collaborent avec les caractéristiques globales pour régresser le maillage du corps entier. Ce modèle simple mais efficace surpassent les méthodes précédentes de pointe avec une réduction de 9 % en NMVE (Normalized Mean Vertex Error) sur AGORA, une réduction de 30 % en PVE (Position Vertex Error) sur EHF (Ego Human Forms), une réduction de 10 % en PVE sur ARCTIC (A Realistic Capture of The Intra-Crowd), et une réduction de 3 % en PVE sur EgoBody.