PoseNet3D: Lernen von zeitlich konsistenten 3D-Gesten menschlicher Körper mittels Knowledge Distillation

Die Rekonstruktion dreidimensionaler menschlicher Körperhaltungen aus 2D-Gelenkpositionen stellt ein hochgradig unbeschränktes Problem dar. Wir stellen ein neuartiges neuronales Netzwerk-Framework, PoseNet3D, vor, das 2D-Gelenke als Eingabe verwendet und 3D-Skelette sowie Parameter des SMPL-Körpermodells ausgibt. Durch die Formulierung unseres Lernansatzes im Rahmen eines Student-Teacher-Modells vermeiden wir während des Trainings jegliche Verwendung von 3D-Daten – sei es gepaarte oder ungepaarte 3D-Daten, Bewegungsaufzeichnungssequenzen, Tiefenbilder oder Multiview-Bilder. Zunächst trainieren wir ein Teacher-Netzwerk, das 3D-Skelette ausgibt, ausschließlich anhand von 2D-Haltungen. Das Teacher-Netzwerk transferiert sein Wissen an ein Student-Netzwerk, das die 3D-Haltung im SMPL-Format vorhersagt. Schließlich werden sowohl das Teacher- als auch das Student-Netzwerk gemeinsam in einer end-to-end-Optimierung unter Verwendung von zeitlichen, selbstkonsistenten und adversarialen Verlustfunktionen feinabgestimmt, wodurch die Genauigkeit beider Netzwerke verbessert wird. Ergebnisse auf dem Human3.6M-Datensatz zur 3D-Haltungsrekonstruktion zeigen, dass unsere Methode den Fehler bei der Vorhersage von 3D-Gelenken im Vergleich zu früheren unsupervisierten Ansätzen um 18 % reduziert. Qualitative Ergebnisse auf in-the-wild-Datensätzen belegen, dass die rekonstruierten 3D-Haltungen und Meshes natürlich, realistisch und reibungslos über aufeinanderfolgende Frames fließen.