HyperAIHyperAI

Command Palette

Search for a command to run...

Mehrpersonen-3D-Menschenpose-Schätzung aus monokularen Bildern

Rishabh Dabral Nitesh B Gundavarapu Rahul Mitra Abhishek Sharma Ganesh Ramakrishnan Arjun Jain

Zusammenfassung

Die Schätzung mehrerer 3D-Gesten von Menschen aus einer einzigen Bildaufnahme stellt eine herausfordernde Aufgabe dar, insbesondere in realen Umgebungen (in-the-wild), aufgrund des Mangels an 3D-annotierten Datensätzen. Wir stellen HG-RCNN vor, ein auf Mask-RCNN basierendes Netzwerk, das zudem die Vorteile der Hourglass-Architektur für die Schätzung mehrerer 3D-Menschengesten nutzt. Es wird ein zweistufiger Ansatz vorgestellt, der zunächst die 2D-Gelenkpunkte innerhalb jeder Region of Interest (RoI) schätzt und anschließend die geschätzten Gelenkpunkte in 3D transformiert. Schließlich werden die geschätzten 3D-Gesten unter Verwendung der Annahme einer schwachen Perspektive (weak-perspective projection) in Kamerakoordinaten platziert und gleichzeitig Fokallänge sowie Wurzelverschiebungen durch gemeinsame Optimierung bestimmt. Das Ergebnis ist ein einfaches und modulares Netzwerk für die Schätzung mehrerer 3D-Menschengesten, das keinerlei Datensätze mit mehreren 3D-Gesten benötigt. Trotz seiner einfachen Formulierung erreicht HG-RCNN state-of-the-art Ergebnisse auf dem MuPoTS-3D-Datensatz und ermöglicht gleichzeitig eine Approximation der 3D-Gesten im Kamerakoordinatensystem.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp