Analyse holistique et par instance du corps humain

L'analyse d'objets -- la tâche de décomposer un objet en ses parties sémantiques -- a traditionnellement été formulée comme un problème de segmentation au niveau des catégories. Par conséquent, lorsque plusieurs objets sont présents dans une image, les méthodes actuelles ne peuvent ni compter le nombre d'objets dans la scène, ni déterminer à quel objet appartient chaque partie. Nous abordons ce problème en segmentant les parties des objets au niveau des instances, de manière que chaque pixel de l'image soit attribué une étiquette de partie ainsi que l'identité de l'objet auquel il appartient. De plus, nous montrons comment cette approche nous avantage également pour obtenir des segmentations à des granularités plus grossières. Notre réseau proposé est formé de bout en bout à partir de détections et commence par un module de segmentation au niveau des catégories. Ensuite, un champ aléatoire conditionnel (Conditional Random Field) différentiable, défini sur un nombre variable d'instances pour chaque image d'entrée, raisonne sur l'identité de chaque partie en l'associant à une détection humaine. Contrairement aux autres approches, notre méthode peut gérer le nombre variable de personnes dans chaque image et notre réseau holistique produit des résultats d'avant-garde en segmentation au niveau des instances des parties et des humains, ainsi que des résultats compétitifs en segmentation au niveau des catégories des parties, tous obtenus par une seule passe avant à travers notre réseau neuronal.