HyperAIHyperAI
vor 4 Monaten

Von-Grob-nach-Fein-volumetrische Vorhersage für die 3D-Pose von Einzelnbildern des Menschen

Georgios Pavlakos; Xiaowei Zhou; Konstantinos G. Derpanis; Kostas Daniilidis
Von-Grob-nach-Fein-volumetrische Vorhersage für die 3D-Pose von Einzelnbildern des Menschen
Abstract

Dieses Papier behandelt die Herausforderung der 3D-Pose-Schätzung von einem einzelnen Farbbild. Trotz des allgemeinen Erfolgs des End-to-End-Lernparadigmas verwenden die besten Ansätze eine zweistufige Lösung, die aus einem Faltungsnetzwerk (ConvNet) zur Lokalisierung von 2D-Gelenken und einem nachfolgenden Optimierungsschritt zur Wiederherstellung der 3D-Pose besteht. In diesem Artikel identifizieren wir die Darstellung der 3D-Pose als ein kritisches Problem bei aktuellen ConvNet-Ansätzen und leisten zwei wichtige Beiträge zur Bestätigung des Wertes des End-to-End-Lernens für diese Aufgabe. Erstens schlagen wir eine feine Diskretisierung des 3D-Raums um das Subjekt vor und trainieren ein ConvNet, um pro Voxel Wahrscheinlichkeiten für jedes Gelenk zu prognostizieren. Dies schafft eine natürliche Darstellung für die 3D-Pose und verbessert die Leistung erheblich im Vergleich zur direkten Regression von Gelenkkoordinaten. Zweitens, um die anfänglichen Schätzungen weiter zu optimieren, setzen wir ein Schema zur Vorhersage von grob zu fein ein. Dieser Schritt begegnet der starken Dimensionsvergrößerung und ermöglicht es, Bildmerkmale iterativ zu verfeinern und wiederzuverarbeiten. Der vorgeschlagene Ansatz übertrifft alle Stand-of-the-Art-Methoden in Standard-Benchmarks und erreicht durchschnittlich eine relative Fehlerreduktion von mehr als 30 %. Zusätzlich untersuchen wir die Verwendung unserer volumetrischen Darstellung in einer verwandten Architektur, die zwar im Vergleich zu unserem End-to-End-Ansatz unteroptimal ist, aber praktisches Interesse bietet, da sie das Training ermöglicht, wenn kein Bild mit entsprechender 3D-Grundwahrheit vorhanden ist, und uns erlaubt, überzeugende Ergebnisse für Freibilder (in-the-wild images) vorzustellen.