HEMlets Pose: Lernen von teilzentrierten Heatmap-Tripeln für eine präzise 3D-Schätzung der menschlichen Pose

Die Schätzung der 3D-Gestalt einer Person aus einem einzigen Bild ist eine herausfordernde Aufgabe. In dieser Arbeit wird die Unsicherheit bei der Transformation detektierter 2D-Gelenke in den 3D-Raum durch die Einführung eines intermediären Zustands – sogenannter part-zentrierter Heatmap-Tripel (HEMlets) – angegangen, wodurch die Lücke zwischen der 2D-Beobachtung und der 3D-Interpretation verkleinert wird. Die HEMlets nutzen drei Gelenk-Heatmaps, um die relative Tiefeninformation der Endgelenke für jedes skelettale Körpersegment darzustellen. In unserem Ansatz wird zunächst ein Convolutional Network (ConvNet) trainiert, um aus dem Eingabebild HEMlets vorherzusagen, gefolgt von einer volumetrischen Regressionsanalyse der Gelenk-Heatmaps. Mittels einer Integraloperation werden die Gelenkpositionen aus den volumetrischen Heatmaps extrahiert, was eine end-to-end-Lernung gewährleistet. Trotz der Einfachheit des Netzwerkdesigns zeigt die quantitative Bewertung eine signifikante Leistungssteigerung gegenüber der bisher besten Methode (um 20 % auf dem Human3.6M-Datensatz). Der vorgeschlagene Ansatz unterstützt zudem natürlicherweise das Training mit „in-the-wild“-Bildern, bei denen lediglich schwach annotierte relative Tiefeninformationen der skelettalen Gelenke vorliegen. Dies verbessert die Generalisierungsfähigkeit unseres Modells, wie qualitative Vergleiche an Outdoor-Bildern bestätigen.