HyperAIHyperAI

Command Palette

Search for a command to run...

HDNet: Schätzung der menschlichen Tiefe für die Lokalisierung von mehreren Personen im Kameraspace

Jiahao Lin Gim Hee Lee

Zusammenfassung

Aktuelle Arbeiten zur Mehrpersonen-3D-Pose-Schätzung konzentrieren sich hauptsächlich auf die Schätzung der 3D-Gelenkpositionen relativ zum Wurzelgelenk und ignorieren die absoluten Positionen jeder Pose. In dieser Arbeit schlagen wir das Human Depth Estimation Network (HDNet) vor, ein End-to-End-Framework für die absolute Lokalisierung des Wurzelgelenks im Kamerakoordinatenraum. Unser HDNet schätzt zunächst die 2D-Menschpose mit Hilfe von Gelenkwärmebildern. Diese geschätzten Wärmebilder dienen als Aufmerksamkeitsmasken zur Pooling von Merkmalen aus den Bildbereichen, die dem Zielobjekt entsprechen. Ein skeletonbasiertes Graph Neuronales Netzwerk (GNN) wird verwendet, um Merkmale zwischen den Gelenken zu verbreiten. Wir formulieren die Ziel-Tiefenschätzung als ein Problem der Bin-Index-Schätzung, das durch eine Soft-Argmax-Operation aus der Klassifikationsausgabe unseres HDNet transformiert werden kann. Wir evaluieren unser HDNet in Aufgaben zur Wurzelgelenk-Lokalisierung und zur Wurzel-relativen 3D-Pose-Schätzung mit zwei Benchmark-Datensätzen, nämlich Human3.6M und MuPoTS-3D. Die experimentellen Ergebnisse zeigen, dass wir unter mehreren Evaluationsmetriken konsistent den bisherigen Stand der Technik übertreffen. Unser Quellcode ist unter folgender URL verfügbar: https://github.com/jiahaoLjh/HumanDepth.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
HDNet: Schätzung der menschlichen Tiefe für die Lokalisierung von mehreren Personen im Kameraspace | Paper | HyperAI