Reconstruction cohérente de plusieurs personnes à partir d'une seule image

Dans cette étude, nous abordons le problème de l'estimation de la posture 3D de plusieurs personnes à partir d'une seule image. Une approche typique de régression dans le cadre top-down de ce problème consisterait d'abord à détecter toutes les personnes présentes, puis à reconstruire chacune d'entre elles indépendamment. Cependant, ce type de prédiction souffre de résultats incohérents, tels que des intersections et un ordre de profondeur incohérent entre les individus dans la scène. Notre objectif est de former un seul réseau capable d'éviter ces problèmes et de générer une reconstruction 3D cohérente de toutes les personnes présentes dans la scène. Pour cela, un choix clé dans notre conception est l'intégration du modèle paramétrique du corps humain SMPL (Shape and Motion Parameterized) dans notre cadre top-down, ce qui permet l'utilisation de deux nouvelles fonctions de perte. Premièrement, une fonction de perte basée sur les champs de distance pénalise les intersections entre les personnes reconstruites. Deuxièmement, une fonction de perte sensible à l'ordre de profondeur raisonne sur les occultations et favorise un ordre de profondeur des personnes qui conduit à un rendu cohérent avec la segmentation d'instances annotée. Cela fournit des signaux de supervision en profondeur au réseau, même si l'image ne comporte pas d'annotations 3D explicites. Les expériences montrent que notre approche surpassent les méthodes précédentes sur des benchmarks standard d'estimation de posture 3D, tandis que nos fonctions de perte proposées permettent une reconstruction plus cohérente dans des images naturelles. Le site web du projet, contenant des vidéos, des résultats et du code source, peut être consulté à l'adresse suivante : https://jiangwenpl.github.io/multiperson