DECO : Estimation dense du contact 3D entre l'humain et la scène dans des conditions réelles

Comprendre comment les humains utilisent le contact physique pour interagir avec le monde est essentiel pour permettre une intelligence artificielle centrée sur l'humain. Bien que l'inférence du contact 3D soit cruciale pour modéliser des interactions humain-objet réalistes et physiquement plausibles, les méthodes existantes se concentrent soit sur le 2D, soit sur les articulations plutôt que sur la surface, utilisent des régions corporelles 3D grossières, ou ne généralisent pas aux images en conditions réelles. En revanche, nous nous intéressons à l'inférence de contacts denses et 3D entre la surface complète du corps et les objets dans des images quelconques. Pour y parvenir, nous avons d'abord collecté DAMON, un nouveau jeu de données contenant des annotations de contact au niveau des sommets densément distribuées associées à des images RGB montrant des contacts complexes entre humains et objets ainsi qu'entre humains et scènes. Deuxièmement, nous avons formé DECO, un détecteur de contact 3D novateur qui utilise à la fois une attention guidée par les parties du corps et une attention guidée par le contexte de la scène pour estimer le contact au niveau des sommets sur le modèle SMPL (Serializable MAnifold Parameterization of Man). DECO s'appuie sur l'intuition que les observateurs humains reconnaissent le contact en raisonnant sur les parties du corps en contact, leur proximité avec les objets de la scène et le contexte environnant de la scène. Nous avons effectué des évaluations approfondies de notre détecteur sur DAMON ainsi que sur les jeux de données RICH et BEHAVE. Nous surpassons significativement les méthodes SOTA (State Of The Art) existantes dans tous les benchmarks. Nous montrons également qualitativement que DECO généralise bien aux interactions humaines variées et difficiles dans des images naturelles. Le code, les données et les modèles sont disponibles à l'adresse https://deco.is.tue.mpg.de.