Reconstruction conjointe de l'humain et de l'objet en 3D par raffinement basé sur le contact Transformer

Le contact humain-objet constitue une indication puissante pour comprendre les interactions physiques entre les humains et les objets. Néanmoins, l'exploitation de l'information de contact humain-objet pour la reconstruction conjointe 3D d'un humain et d'un objet à partir d'une seule image n'est pas encore largement explorée. Dans ce travail, nous présentons une nouvelle méthode de reconstruction 3D conjointe humain-objet (CONTHO) qui utilise efficacement l'information de contact entre les humains et les objets. Notre système repose sur deux conceptions fondamentales : 1) l'estimation du contact guidée par la 3D et 2) le raffinement 3D des humains et des objets basé sur le contact. Tout d'abord, pour une estimation précise du contact humain-objet, CONTHO reconstruit initialement les humains et les objets en 3D et utilise ces reconstructions comme guide explicite en 3D pour l'estimation du contact. Ensuite, pour affiner les reconstructions initiales des humains et des objets en 3D, nous proposons un nouveau Transformers de raffinement basé sur le contact qui agrège efficacement les caractéristiques humaines et les caractéristiques des objets en fonction du contact humain-objet estimé. Le raffinement basé sur le contact proposé empêche l'apprentissage de corrélations erronées entre l'humain et l'objet, ce qui permet une reconstruction 3D précise. En conséquence, notre méthode CONTHO atteint des performances de pointe tant dans l'estimation du contact humain-objet que dans la reconstruction conjointe 3D d'un humain et d'un objet. Le code est disponible au public sur https://github.com/dqj5182/CONTHO_RELEASE.