HyperAIHyperAI
vor 2 Monaten

Invariante Lehrerin und äquivariante Schülerin für die unüberwachte 3D-Pose-Schätzung von Menschen

Chenxin Xu; Siheng Chen; Maosen Li; Ya Zhang
Invariante Lehrerin und äquivariante Schülerin für die unüberwachte 3D-Pose-Schätzung von Menschen
Abstract

Wir schlagen eine neuartige Methode vor, die auf einem Lehrer-Schüler-Lernrahmen basiert, um die 3D-Pose von Menschen ohne jede 3D-Annotation oder zusätzliche Informationen zu schätzen. Um dieses Problem des unüberwachten Lernens zu lösen, verwendet das Lehrernetzwerk ein modellbasiertes Vorgehen mit einer Pose-Wörterbuchregularisierung, um eine physikalisch plausible 3D-Pose zu schätzen. Um die Zerlegungsambiguität im Lehrernetzwerk zu bewältigen, schlagen wir eine zyklisch konsistente Architektur vor, die eine 3D-Rotationsinvarianz fördert, um das Lehrernetzwerk zu trainieren. Um die Schätzgenauigkeit weiter zu verbessern, verwendet das Schüler-Netzwerk ein neuartiges Graph-Konvolution-Netzwerk (Graph Convolution Network) für Flexibilität, um die 3D-Koordinaten direkt zu schätzen. Eine weitere zyklisch konsistente Architektur, die eine 3D-Rotationsequivarianz fördert, wird angewendet, um geometrische Konsistenz auszunutzen und zusammen mit dem Wissensdistillat aus dem Lehrernetzwerk die Leistung der Pose-Schätzung zu verbessern. Wir führen umfangreiche Experimente auf den Datensätzen Human3.6M und MPI-INF-3DHP durch. Unsere Methode reduziert den Fehler der 3D-Gelenkprognose um 11,4 % im Vergleich zu den besten bisher bekannten unüberwachten Methoden und übertrifft auch viele schwach überwachte Methoden, die zusätzliche Informationen auf Human3.6M verwenden. Der Quellcode wird unter https://github.com/sjtuxcx/ITES zur Verfügung gestellt.