CDGNet: Class Distribution Guided Network für Human Parsing

Das Ziel der menschlichen Aufteilung (human parsing) besteht darin, eine menschliche Figur in einem Bild in ihre einzelnen Bestandteile zu zerlegen. Dabei wird jedes Pixel des menschlichen Bildes einer bestimmten Kategorie zugeordnet. Da der menschliche Körper hierarchisch strukturierte Teile aufweist, kann jeder Körperteil eines Bildes über eine charakteristische räumliche Verteilung verfügen. Beispielsweise ist es unwahrscheinlich, dass ein menschlicher Kopf unter den Füßen liegt, während Arme eher in der Nähe des Rumpfes zu finden sind. Inspiriert durch diese Beobachtung erzeugen wir Instanz-Klassenverteilungen, indem wir die ursprünglichen Labels der menschlichen Aufteilung in horizontaler und vertikaler Richtung akkumulieren. Diese Verteilungen können als Supervisionsignale genutzt werden. Mittels dieser horizontalen und vertikalen Klassenverteilungslabels wird das Netzwerk dazu angeleitet, die inhärente räumliche Verteilung jeder Klasse auszunutzen. Wir kombinieren die beiden geleiteten Merkmale zu einer räumlichen Anleitungskarte (spatial guidance map), die anschließend durch Multiplikation und Konkatenation auf das Baseline-Netzwerk aufgelegt wird, um die menschlichen Körperteile präzise zu unterscheiden. Um die Wirksamkeit und Überlegenheit unseres Ansatzes zu demonstrieren, haben wir umfangreiche Experimente auf drei etablierten Benchmarks durchgeführt: den LIP-, ATR- und CIHP-Datenbanken.