HyperAIHyperAI
vor 2 Monaten

HDNet: Schätzung der menschlichen Tiefe für die Lokalisierung von mehreren Personen im Kameraspace

Lin, Jiahao ; Lee, Gim Hee
HDNet: Schätzung der menschlichen Tiefe für die Lokalisierung von mehreren Personen im Kameraspace
Abstract

Aktuelle Arbeiten zur Mehrpersonen-3D-Pose-Schätzung konzentrieren sich hauptsächlich auf die Schätzung der 3D-Gelenkpositionen relativ zum Wurzelgelenk und ignorieren die absoluten Positionen jeder Pose. In dieser Arbeit schlagen wir das Human Depth Estimation Network (HDNet) vor, ein End-to-End-Framework für die absolute Lokalisierung des Wurzelgelenks im Kamerakoordinatenraum. Unser HDNet schätzt zunächst die 2D-Menschpose mit Hilfe von Gelenkwärmebildern. Diese geschätzten Wärmebilder dienen als Aufmerksamkeitsmasken zur Pooling von Merkmalen aus den Bildbereichen, die dem Zielobjekt entsprechen. Ein skeletonbasiertes Graph Neuronales Netzwerk (GNN) wird verwendet, um Merkmale zwischen den Gelenken zu verbreiten. Wir formulieren die Ziel-Tiefenschätzung als ein Problem der Bin-Index-Schätzung, das durch eine Soft-Argmax-Operation aus der Klassifikationsausgabe unseres HDNet transformiert werden kann. Wir evaluieren unser HDNet in Aufgaben zur Wurzelgelenk-Lokalisierung und zur Wurzel-relativen 3D-Pose-Schätzung mit zwei Benchmark-Datensätzen, nämlich Human3.6M und MuPoTS-3D. Die experimentellen Ergebnisse zeigen, dass wir unter mehreren Evaluationsmetriken konsistent den bisherigen Stand der Technik übertreffen. Unser Quellcode ist unter folgender URL verfügbar: https://github.com/jiahaoLjh/HumanDepth.

HDNet: Schätzung der menschlichen Tiefe für die Lokalisierung von mehreren Personen im Kameraspace | Neueste Forschungsarbeiten | HyperAI