RemoCap: Entwirrtes Lernen von Repräsentationen für Bewegungserfassung

Die Rekonstruktion von 3D-Menschenkörpern aus realistischen Bewegungssequenzen bleibt aufgrund weit verbreiteter und komplexer Verdeckungen eine Herausforderung. Aktuelle Methoden haben Schwierigkeiten, die Dynamik verdeckter Körperteile zu erfassen, was zu Modellpenetration und verzerrten Bewegungen führt. RemoCap nutzt räumliche Entwirrung (Spatial Disentanglement, SD) und Bewegungs-Entwirrung (Motion Disentanglement, MD), um diese Einschränkungen zu überwinden. SD befasst sich mit der Verdeckungsbeeinflussung zwischen dem Zielmenschenkörper und umliegenden Objekten. Dies erreicht es durch die Entwirrung der Zielmerkmale entlang der Dimensionsachse. Durch die Ausrichtung der Merkmale basierend auf ihren räumlichen Positionen in jeder Dimension isoliert SD die Reaktion des Zielobjekts innerhalb eines globalen Fensters, was eine genaue Erfassung trotz Verdeckungen ermöglicht. Das MD-Modul verwendet eine kanalweise temporale Shuffling-Strategie, um verschiedene Szenendynamiken zu simulieren. Dieser Prozess entwirrt die Bewegungsmerkmale effektiv, sodass RemoCap verdeckte Teile mit größerer Treue rekonstruieren kann. Darüber hinaus stellt dieser Artikel einen Sequenzgeschwindigkeitsverlust vor, der zeitliche Kohärenz fördert. Dieser Verlust begrenzt Geschwindigkeitsfehler zwischen den Bildern und gewährleistet, dass die vorhergesagte Bewegung realistische Konsistenz aufweist. Ausführliche Vergleiche mit den besten aktuellen (state-of-the-art, SOTA) Methoden an Benchmark-Datensätzen zeigen RemoCaps überlegene Leistung bei der 3D-Rekonstruktion von Menschenkörpern. Auf dem 3DPW-Datensatz übertrifft RemoCap alle Konkurrenten und erzielt die besten Ergebnisse in den Metriken MPVPE (81.9), MPJPE (72.7) und PA-MPJPE (44.1). Die Codes sind unter https://wanghongsheng01.github.io/RemoCap/ verfügbar.