Kreuzdomäne Komplementäres Lernen unter Verwendung von Pose für die Segmentierung von Mehrpersonen-Teilen

Überwachtes Deep Learning mit pixelgenauen Trainingslabels hat bei der Segmentierung von Mehrpersonen-Teilen große Erfolge erzielt. Allerdings ist die Datenaufbereitung auf Pixel-Ebene sehr kostspielig. Um dieses Problem zu lösen, werden synthetische Daten untersucht, um die manuelle Datenaufbereitung zu vermeiden. Obwohl es einfach ist, Labels für synthetische Daten zu generieren, sind die Ergebnisse im Vergleich zu denen mit echten Daten und manueller Aufbereitung deutlich schlechter. Die Verschlechterung der Leistung wird hauptsächlich durch den Domänenunterschied verursacht, d.h., die Diskrepanz in den Pixelwertstatistiken zwischen echten und synthetischen Daten.In dieser Arbeit beobachten wir, dass sowohl echte als auch synthetische Menschen eine Skelettdarstellung (Pose) haben. Wir fanden heraus, dass die Skelette während des Trainings effektiv die Brücke zwischen synthetischer und echter Domäne bilden können. Unser vorgeschlagener Ansatz nutzt die reichhaltigen und realistischen Variationen der echten Daten sowie die leicht erreichbaren Labels der synthetischen Daten, um Mehrpersonen-Teilsegmentierung auf echten Bildern ohne menschliche Annotationen zu lernen. Durch Experimente zeigen wir, dass unsere Methode ohne jegliche manuelle Labeling-Arbeiten vergleichbare Ergebnisse wie mehrere state-of-the-art Ansätze liefert, die menschliche Annotationen auf den Pascal-Person-Parts und COCO-DensePose Datensätzen benötigen. Andererseits übertrifft unsere Methode bei Verwendung von Teil-Labels in den echten Bildern während des Trainings die überwachten state-of-the-art Methoden um ein großes Maß.Wir demonstrieren zudem die Übertragbarkeit unserer Methode auf die Vorhersage neuer Keypoints in echten Bildern, wo keine Labels für das Detektieren neuer Keypoints vorhanden sind. Der Quellcode und vorab trainierte Modelle sind unter https://github.com/kevinlin311tw/CDCL-human-part-segmentation verfügbar.