Zu genauer Mehrpersonen-Pose-Schätzung in der Wildbahn

Wir schlagen eine Methode zur Erkennung mehrerer Personen und zur 2-D-Pose-Schätzung vor, die auf der anspruchsvollen COCO Keypoints-Aufgabe Stand der Technik erreichende Ergebnisse liefert. Es handelt sich um einen einfachen, aber mächtigen Top-Down-Ansatz, der aus zwei Stufen besteht.In der ersten Stufe prognostizieren wir die Position und das Ausmaß von Boxen, die wahrscheinlich Personen enthalten; hierfür verwenden wir den Faster R-CNN-Detektor. In der zweiten Stufe schätzen wir die Keypoints der Person, die in jedem vorgeschlagenen Bounding Box potenziell enthalten ist. Für jeden Keypoint-Typ prognostizieren wir dichte Heatmaps und Offsets mit einem voll konvolutionellen ResNet. Um diese Ausgaben zu kombinieren, führen wir ein neues Aggregationsverfahren ein, um hoch lokalisierte Keypoint-Vorhersagen zu erhalten. Anstelle des groberen Box-Level-NMS verwenden wir zudem eine neue Form der kepunkt-basierten Non-Maximum-Suppression (NMS) sowie eine neue Form der keypoint-basierten Konfidenzschätzung, anstelle des Box-Level-Scoring.Unser endgültiges System erreicht allein durch Training mit COCO-Daten eine durchschnittliche Präzision von 0,649 auf dem COCO Test-Dev-Datensatz und von 0,643 auf dem Test-Standard-Datensatz, wodurch es den Gewinner des COCO Keypoints-Challenges 2016 und andere jüngste Methoden Stand der Technik übertrifft. Durch die Verwendung zusätzlicher intern gekennzeichneter Daten erreichen wir sogar eine höhere durchschnittliche Präzision von 0,685 auf dem Test-Dev-Datensatz und von 0,673 auf dem Test-Standard-Datensatz – was einem absoluten Verbesserung von mehr als 5 % gegenüber der bisher besten Methode auf dem gleichen Datensatz entspricht.