Associatives Einbetten: End-to-End-Lernen für gemeinsame Detektion und Gruppierung

Wir stellen das assoziative Einbettung (associative embedding) vor, eine neuartige Methode zur Überwachung von Faltungsneuronalen Netzen für die Aufgaben der Detektion und Gruppierung. Eine Reihe von Problemen im Bereich der Computer Vision können in dieser Formulierung betrachtet werden, darunter die Mehrpersonen-Pose-Schätzung, die Instanzsegmentierung und die Mehrobjekt-Verfolgung. Die Gruppierung von Detektionen wird in der Regel durch mehrstufige Pipelines erreicht; stattdessen schlagen wir einen Ansatz vor, der ein Netzwerk lehrt, Detektionen und Gruppenzuordnungen gleichzeitig auszugeben. Diese Technik kann leicht in jede moderne Netzarchitektur integriert werden, die pixelweise Vorhersagen erzeugt. Wir zeigen, wie diese Methode sowohl für die Mehrpersonen-Pose-Schätzung als auch für die Instanzsegmentierung angewendet werden kann und berichten über Spitzenleistungen bei der Mehrpersonen-Pose auf den Datensätzen MPII und MS-COCO.