HyperAIHyperAI
vor 11 Tagen

Lernen der robusten Schätzung von 3D-Menschen-Meshes aus realen, überfüllten Szenen

Hongsuk Choi, Gyeongsik Moon, JoonKyu Park, Kyoung Mu Lee
Lernen der robusten Schätzung von 3D-Menschen-Meshes aus realen, überfüllten Szenen
Abstract

Wir betrachten das Problem der Rekonstruktion einer 3D-Menschengitterstruktur einer einzelnen Person aus realen, überfüllten Szenen. Obwohl erhebliche Fortschritte bei der Schätzung von 3D-Menschengittern erzielt wurden, stoßen bestehende Methoden bei Eingabedaten, die überfüllte Szenen enthalten, auf Schwierigkeiten. Der erste Grund für diesen Misserfolg ist eine Domänenlücke zwischen Trainings- und Testdaten. Bewegungsaufzeichnungsdatensätze, die genaue 3D-Labels für das Training bereitstellen, enthalten keine Crowd-Daten und behindern ein Netzwerk darin, robuste Bildmerkmale für eine Zielperson in überfüllten Szenen zu erlernen. Der zweite Grund ist die Verarbeitung von Merkmalen, bei der der Merkmalsvektor eines lokalisierten Bounding Boxes, die mehrere Personen enthält, räumlich durchschnittlich aggregiert wird. Diese Durchschnittsbildung macht die Merkmale der Zielperson von denen anderer Personen ununterscheidbar. Wir präsentieren 3DCrowdNet, das erstmals explizit überfüllte Szenen aus der realen Welt anspricht und eine robuste 3D-Menschengitterstruktur durch die Lösung der oben genannten Probleme schätzt. Erstens nutzen wir eine 2D-Menschenpose-Schätzung, die kein Bewegungsaufzeichnungsdatenset mit 3D-Labels für das Training erfordert und somit der Domänenlücke nicht ausgesetzt ist. Zweitens schlagen wir einen gelenkbasierenden Regressor vor, der die Merkmale einer Zielperson von denen anderer unterscheidet. Unser gelenkbasierter Regressor bewahrt die räumliche Aktivierung der Zielperson, indem er Merkmale an den Positionen der Gelenke der Zielperson abtastet und die Parameter des menschlichen Modells regressiv schätzt. Dadurch lernt 3DCrowdNet zielgerichtete Merkmale und schließt effektiv die irrelevanten Merkmale von nahegelegenen Personen aus. Wir führen Experimente auf verschiedenen Benchmarks durch und belegen die Robustheit von 3DCrowdNet gegenüber realen, überfüllten Szenen sowohl quantitativ als auch qualitativ. Der Quellcode ist unter https://github.com/hongsukchoi/3DCrowdNet_RELEASE verfügbar.

Lernen der robusten Schätzung von 3D-Menschen-Meshes aus realen, überfüllten Szenen | Neueste Forschungsarbeiten | HyperAI