il y a 2 mois

Perception des arrangements spatiaux 3D entre humains et objets à partir d'une seule image dans des conditions réelles

Zhang, Jason Y. ; Pepose, Sam ; Joo, Hanbyul ; Ramanan, Deva ; Malik, Jitendra ; Kanazawa, Angjoo

Résumé

Nous présentons une méthode permettant d'inférer les dispositions spatiales et les formes des humains et des objets dans une scène 3D globalement cohérente, à partir d'une seule image capturée dans un environnement non contrôlé. Notamment, notre méthode fonctionne sur des ensembles de données ne comportant aucune supervision 3D au niveau de la scène ou des objets. Notre intuition clé est que la considération conjointe des humains et des objets donne lieu à des contraintes de « bon sens en 3D » qui peuvent être utilisées pour résoudre les ambiguïtés. En particulier, nous introduisons une perte d'échelle qui apprend la distribution de la taille des objets à partir des données ; une perte de réprojection de silhouette prenant en compte l'occlusion pour optimiser la posture des objets ; et une perte d'interaction humain-objet pour capturer le découpage spatial des objets avec lesquels les humains interagissent. Nous validons empiriquement que nos contraintes réduisent considérablement l'espace des configurations spatiales 3D probables. Nous démontrons notre approche sur des images difficiles, capturées dans un environnement naturel, montrant des humains interagissant avec de grands objets (comme des vélos, des motos et des planches de surf) et avec des objets portatifs (comme des ordinateurs portables, des raquettes de tennis et des skateboards). Nous quantifions la capacité de notre approche à recouvrer les dispositions humain-objet et soulignons les défis restants dans ce domaine relativement nouveau. La page web du projet se trouve à l'adresse https://jasonyzhang.com/phosa.