Verteilungsorientierte Koordinatendarstellung für die menschliche Pose-Schätzung

Während die Heatmap als de-facto-Standard-Koordinatendarstellung in der menschlichen Pose-Schätzung gilt, wurde sie, soweit uns bekannt ist, bisher systematisch in der Literatur nicht untersucht. Diese Arbeit schließt diese Lücke, indem sie die Koordinatendarstellung unter besonderer Berücksichtigung der Heatmap untersucht. Interessanterweise stellen wir fest, dass der Prozess der Dekodierung der vorhergesagten Heatmaps in die endgültigen Gelenkkoordinaten im ursprünglichen Bildraum für die Leistungsfähigkeit der menschlichen Pose-Schätzung überraschend entscheidend ist – ein Aspekt, der bisher nicht erkannt wurde. Aufgrund dieser Entdeckung analysieren wir weiterhin die designbedingten Einschränkungen der herkömmlichen Koordinatendekodierungsmethode, die von den meisten bestehenden Methoden verwendet wird, und schlagen eine präzisere, verteilungsadaptive Dekodierungsmethode vor. Gleichzeitig verbessern wir den Standard-Prozess der Koordinatencodierung (d. h. die Transformation der Ground-Truth-Koordinaten in Heatmaps), indem wir genaue Heatmap-Verteilungen erzeugen, um eine verzerrungsfreie Modelltrainingsphase zu gewährleisten. Zusammengefasst formulieren wir eine neuartige, verteilungsadaptive Koordinatendarstellung für Eckpunkte (Distribution-Aware coordinate Representation of Keypoint, DARK). Als modellunabhängiger Plug-in-Ansatz verbessert DARK signifikant die Leistung einer Vielzahl von state-of-the-art-Modellen zur menschlichen Pose-Schätzung. Umfangreiche Experimente zeigen, dass DARK auf zwei gängigen Benchmarks, MPII und COCO, konsistent die besten Ergebnisse erzielt und somit die Nützlichkeit und Wirksamkeit unserer neuen Koordinatendarstellungsidee eindrucksvoll bestätigt.