HyperAIHyperAI

Command Palette

Search for a command to run...

Gesamter Erfassung: 3D-Menschenpose-Schätzung durch Fusion von Video- und Inertialsensordaten

and John Collomosse Matthew Trumble Charles Malleson Adrian Hilton Andrew Gilbert

Zusammenfassung

Wir präsentieren einen Algorithmus zur Fusion von Multi-Viewpoint-Video (MVV) mit Daten von Inertial Measurement Units (IMU), um die 3D-Gestenbewegung menschlicher Körper präzise zu schätzen. Zur Ableitung einer Pose-Embedding aus volumetrischen, probabilistischen Visual-Hull-Daten (PVH), die aus den MVV-Bildern abgeleitet werden, wird ein 3D-Convolutional Neural Network eingesetzt. Dieses Modell wird in ein Dual-Stream-Netzwerk integriert, das Pose-Embeddings aus MVV sowie eine Vorwärts-Kinematik-Lösung der IMU-Daten kombiniert. Vor der Fusion werden in beiden Streams jeweils zeitliche Modelle (LSTM) implementiert. Die hybride Pose-Schätzung mithilfe dieser komplementären Datensätze zeigt sich in der Aufhebung von Mehrdeutigkeiten innerhalb jeder Sensormodalität und führt zu einer verbesserten Genauigkeit gegenüber früheren Ansätzen. Ein weiterer Beitrag dieser Arbeit ist die Einführung eines neuen hybriden MVV-Datensatzes (TotalCapture), der Video-, IMU-Daten sowie eine skelettbasierte Ground-Truth aus einem kommerziellen Motion-Capture-System enthält. Der Datensatz ist online unter http://cvssp.org/data/totalcapture/ verfügbar.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
Gesamter Erfassung: 3D-Menschenpose-Schätzung durch Fusion von Video- und Inertialsensordaten | Paper | HyperAI