CDGNet : Réseau guidé par la distribution des classes pour le parsing humain

L'objectif du parsing humain consiste à partitionner un être humain dans une image en parties constitutives. Cette tâche implique d'étiqueter chaque pixel de l'image humaine selon des classes prédéfinies. Étant donné que le corps humain est composé de parties structurées hiérarchiquement, chaque partie du corps dans une image peut présenter une caractéristique propre de répartition spatiale. Par exemple, la tête humaine est peu susceptible d'être située sous les pieds, tandis que les bras sont plus probablement proches du tronc. Inspirés par cette observation, nous construisons des distributions de classes par instance en accumulant les étiquettes originales de parsing humain selon les directions horizontale et verticale. Ces distributions peuvent servir de signaux de supervision. En exploitant ces étiquettes de distribution de classes horizontales et verticales, le réseau est guidé pour exploiter la répartition intrinsèque de position de chaque classe. Nous combinons ces deux caractéristiques guidées afin de former une carte de guidance spatiale, qui est ensuite superposée au réseau de base par multiplication et concaténation, afin de distinguer précisément les différentes parties du corps humain. Nous avons mené des expériences étendues pour démontrer l'efficacité et la supériorité de notre méthode sur trois bases de données bien connues : LIP, ATR et CIHP.