DeepCut: Gemeinsame Teilmenge Partitionierung und Beschriftung für die Mehrpersonen-Pose-Schätzung

Dieses Papier behandelt die Aufgabe der Artikulationsbewegungsschätzung von mehreren Personen in realen Bildern. Wir schlagen einen Ansatz vor, der die Aufgaben der Detektion und Pose-Schätzung gemeinsam löst: Er ermittelt die Anzahl der Personen in einer Szene, identifiziert verdeckte Körperteile und klärt die Zuordnung von Körperteilen zwischen Personen, die sich nahe beieinander befinden. Diese gemeinsame Formulierung steht im Gegensatz zu früheren Strategien, die das Problem durch eine erstmalige Detektion der Personen und anschließende Schätzung ihrer Körperhaltung angehen. Wir schlagen eine Partitionierung und Beschriftungsformulierung eines Satzes von mit CNN-basierten Teildetektoren generierten Körperteilhypothesen vor. Unsere Formulierung, ein Beispiel für ein ganzzahliges lineares Programm, führt implizit eine Non-Maximum-Suppression auf dem Satz von Teilkandidaten durch und gruppiert sie, um Konfigurationen von Körperteilen zu bilden, die geometrischen und Erscheinungsrestriktionen entsprechen. Experimente anhand vier verschiedener Datensätze zeigen Stand-der-Kunst-Ergebnisse sowohl für Einzelpersonen- als auch für Mehrpersonen-Pose-Schätzung. Modelle und Code sind unter http://pose.mpi-inf.mpg.de verfügbar.