Estimation de la posture et de la forme 3D multi-personnes par cinématique inverse et raffinement

L'estimation des poses et des formes 3D sous forme de maillages à partir d'images RGB monoculaires est un défi. Évidemment, elle est plus difficile que l'estimation des poses 3D uniquement sous forme de squelettes ou de cartes de chaleur. Lorsque des personnes en interaction sont impliquées, la reconstruction 3D de maillages devient encore plus complexe en raison de l'ambiguïté introduite par les occultations entre personnes. Pour relever ces défis, nous proposons une pipeline allant du grossier au fin qui bénéficie de 1) l'application de la cinématique inverse à l'estimation robuste aux occultations des squelettes 3D et 2) des techniques de raffinement relationnel basées sur les Transformers. Dans notre pipeline, nous obtenons d'abord des squelettes 3D robustes aux occultations pour plusieurs personnes à partir d'une image RGB. Ensuite, nous appliquons la cinématique inverse pour convertir les squelettes estimés en paramètres de maillages 3D déformables. Enfin, nous utilisons le raffinement de maillages basé sur les Transformers, qui affine les paramètres de maillage obtenus en tenant compte des relations intra- et inter-personnes entre les maillages 3D. Grâce à des expériences exhaustives, nous démontrons l'efficacité de notre méthode, surpassant les états de l'art sur les jeux de données 3DPW, MuPoTS et AGORA.