Kinematisch-strukturerhaltene Darstellung für unüberwachte 3D-Menschpose-Schätzung

Die Schätzung der 3D-Menschpose aus monoaularen Bildern hat in letzter Zeit erhebliche Aufmerksamkeit gefunden, da sie ein entscheidender Schritt für mehrere menschenzentrierte Anwendungen darstellt. Allerdings bleibt die Generalisierbarkeit von Menschpose-Schätzmodellen, die unter Verwendung von Überwachung auf umfangreichen Studio-Datensätzen entwickelt wurden, fraglich, da diese Modelle häufig in unbekannten realen Umgebungen unzufriedenstellende Ergebnisse liefern. Obwohl schwach überwachte Modelle vorgeschlagen wurden, um diesen Mangel zu beheben, hängt die Leistung solcher Modelle von der Verfügbarkeit gepaarter Überwachung für einige verwandte Aufgaben ab, wie z.B. 2D-Pose oder multiview-Bildpaare. Im Gegensatz dazu schlagen wir einen neuen kinematik-strukturerhaltenen nichtüberwachten Ansatz zur 3D-Pose-Schätzung vor, der nicht durch irgendeine Art von gepaarter oder ungepaarter schwacher Überwachung eingeschränkt ist. Unser Pose-Schätzrahmen basiert auf einem minimalen Satz an Vorwissen, das die zugrunde liegende kinematische 3D-Struktur definiert, wie zum Beispiel Informationen über Skeletalgelenksverbindungen mit Knochenlängenverhältnissen in einer festgelegten kanonischen Skala. Das vorgeschlagene Modell verwendet drei aufeinanderfolgende differenzierbare Transformationen, bekannt als Vorwärtskinematik (forward-kinematics), Kameraprojektion (camera-projection) und räumliche Abbildungsstransformation (spatial-map transformation). Diese Gestaltung fungiert nicht nur als geeigneter Engpass, der eine effektive Pose-Entflechtung fördert, sondern liefert auch interpretierbare latente Pose-Darstellungen und vermeidet das Training eines expliziten latenten Einbettungs-zu-Pose-Abbilders. Darüber hinaus verzichten wir auf instabile adversäre Konfigurationen und nutzen den Decoder neu, um einen energiebasierten Verlust zu formalisieren. Dies ermöglicht es uns, aus Videos im freien Feld zu lernen und uns nicht nur auf Laborbedingungen zu beschränken. Ausführliche Experimente zeigen unsere erstklassige nichtüberwachte und schwach überwachte Pose-Schätzung auf den Datensätzen Human3.6M und MPI-INF-3DHP. Qualitative Ergebnisse in unbekannten Umgebungen bestätigen zudem unsere überlegene Generalisierungsfähigkeit.