UniParser: Mehrpersonen-Parsing mit einheitlicher Korrelationsdarstellunglernen

Die Mehrpersonen-Segmentierung ist eine Aufgabe der Bildsegmentierung, die sowohl instanzbasierte als auch feingranulare kategorienbasierte Informationen erfordert. Bislang haben jedoch vorherige Forschungen diese beiden Arten von Informationen in separaten Zweigen und unterschiedlichen Ausgabeformaten verarbeitet, was zu ineffizienten und redundanten Frameworks geführt hat. In diesem Artikel stellen wir UniParser vor, der die instanzbasierten und kategorienbasierten Repräsentationen in drei wesentlichen Aspekten integriert: 1) Wir schlagen einen einheitlichen Ansatz zum Lernen korrelationsbasierter Repräsentationen vor, der es unserem Netzwerk ermöglicht, Instanz- und Kategorie-Features im Kosinusräum (cosine space) zu lernen; 2) Wir vereinheitlichen die Form der Ausgaben jedes Moduls als pixelbasierte Segmentierungsergebnisse, während Instanz- und Kategorie-Features unter Verwendung eines homogenen Labels und eines zusätzlichen Verlusts überwacht werden; 3) Wir entwerfen ein gemeinsames Optimierungsverfahren zur Fusion von Instanz- und Kategorie-Repräsentationen. Durch die Einheitlichung der instanzbasierten und kategorienbasierten Ausgaben umgeht UniParser manuell entwickelte Nachbearbeitungstechniken und übertrifft den Stand der Technik, wobei er auf MHPv2.0 einen AP-Wert von 49,3 % und auf CIHP einen AP-Wert von 60,4 % erreicht. Wir werden unseren Quellcode, vortrainierte Modelle und Online-Demos veröffentlichen, um zukünftige Studien zu fördern.