CHORE : Reconstruction de contacts, d'humains et d'objets à partir d'une seule image RGB

La plupart des travaux antérieurs sur la perception des humains en 3D à partir d’images raisonnent sur l’humain isolé, sans tenir compte de son environnement. Or, les humains interagissent constamment avec les objets qui les entourent, ce qui rend nécessaire le développement de modèles capables de raisonner non seulement sur l’humain, mais aussi sur les objets et leurs interactions. Ce problème est particulièrement difficile en raison des fortes occlusions entre humains et objets, de la diversité des types d’interaction et de l’ambiguïté de profondeur. Dans cet article, nous introduisons CHORE, une nouvelle méthode qui apprend à reconstruire conjointement l’humain et l’objet à partir d’une seule image RGB. CHORE s’inspire des récents progrès dans l’apprentissage implicite des surfaces et des approches classiques d’ajustement basées sur des modèles. Nous calculons une reconstruction neuronale de l’humain et de l’objet, représentée de manière implicite par deux champs de distance non signés, un champ de correspondance vers un modèle corporel paramétrique et un champ d’orientation de l’objet. Cette approche permet d’ajuster robustement un modèle corporel paramétrique et un modèle 3D d’objet, tout en raisonnant sur leurs interactions. En outre, les méthodes précédentes d’apprentissage implicite alignées sur les pixels utilisent généralement des données synthétiques et reposent sur des hypothèses qui ne sont pas satisfaites dans les données réelles. Nous proposons une méthode élégante d’échelle sensible à la profondeur, qui permet un apprentissage plus efficace de la forme sur des données réelles. Les expériences montrent que notre reconstruction conjointe, apprise grâce à la stratégie proposée, dépasse significativement les états de l’art. Le code et les modèles sont disponibles à l’adresse suivante : https://virtualhumans.mpi-inf.mpg.de/chore