vor 2 Monaten

Ein Doppelt-Quellen-Ansatz für die 3D-Pose-Schätzung von Menschen aus einem einzelnen Bild

Umar Iqbal; Andreas Doering; Hashim Yasin; Björn Krüger; Andreas Weber; Juergen Gall

Abstract

In dieser Arbeit adressieren wir das anspruchsvolle Problem der 3D-Pose-Schätzung von einzelnen Bildern. Neuere Ansätze lernen tiefe neuronale Netze, um die 3D-Pose direkt aus Bildern zu regressieren. Ein wesentlicher Herausforderung für solche Methoden ist jedoch die Sammlung von Trainingsdaten. Insbesondere ist es praktisch unmöglich, große Mengen an Trainingsdaten zu sammeln, die unbeschränkte Bilder mit genauen 3D-Posen enthalten. Wir schlagen daher den Einsatz zweier unabhängiger Trainingsquellen vor. Die erste Quelle besteht aus genauen 3D-Bewegungserfassungsdaten, und die zweite Quelle besteht aus unbeschränkten Bildern mit annotierten 2D-Posen. Um beide Quellen zu integrieren, schlagen wir einen dualen Quellenansatz vor, der 2D-Pose-Schätzung mit effizienter 3D-Pose-Retrieval kombiniert. Dazu konvertieren wir zunächst die Bewegungserfassungsdaten in einen normierten 2D-Pose-Raum und lernen ein 2D-Pose-Schätzmodell getrennt von den Bilddaten. Während der Inferenz schätzen wir die 2D-Pose und ermitteln effizient die nächsten 3D-Posen. Anschließend schätzen wir gemeinsam eine Abbildung vom 3D-Pose-Raum zum Bild und rekonstruieren die 3D-Pose. Wir führen eine umfassende Evaluation des vorgeschlagenen Verfahrens durch und demonstrieren experimentell die Effektivität unserer Methode, auch wenn die Skeletstrukturen der beiden Quellen erheblich voneinander abweichen.