Représentation détaillée conjointe 2D-3D pour l'interaction humain-objet

La détection de l'interaction humain-objet (HOI) est au cœur de la compréhension des actions. Outre les informations 2D telles que l'apparence et les positions des humains et des objets, la posture 3D est également généralement utilisée dans l'apprentissage de l'HOI en raison de son indépendance par rapport à la vue. Cependant, les articulations corporelles 3D approximatives ne portent que des informations corporelles éparses et ne sont pas suffisantes pour comprendre des interactions complexes. Ainsi, nous avons besoin d'une forme corporelle 3D détaillée pour aller plus loin. Par ailleurs, l'objet interagi en 3D n'est pas encore pleinement étudié dans l'apprentissage de l'HOI. À cet égard, nous proposons une méthode d'apprentissage de représentation conjointe 2D-3D détaillée. Tout d'abord, nous utilisons une méthode de capture du corps humain à partir d'une seule vue pour obtenir des formes corporelles, faciales et manuelles 3D détaillées. Ensuite, nous estimons la position et la taille 3D de l'objet en se référant à la configuration spatiale 2D humain-objet et aux a priori catégoriels des objets. Enfin, un cadre d'apprentissage conjoint et des tâches de cohérence multimodale sont proposés pour apprendre la représentation conjointe HOI. Pour évaluer plus efficacement la capacité des modèles à traiter l'ambiguïté 2D, nous proposons un nouveau benchmark nommé Ambiguous-HOI composé d'images ambiguës difficiles. Des expériences approfondies sur le benchmark HOI à grande échelle et sur Ambiguous-HOI montrent une efficacité impressionnante de notre méthode. Le code source et les données sont disponibles sur https://github.com/DirtyHarryLYL/DJ-RN.