HyperAIHyperAI

Command Palette

Search for a command to run...

3D Human Pose Estimation mittels raumzeitlicher Netzwerke mit explizitem Training für Verdeckung

Yu Cheng Bo Yang Bo Wang Robby T. Tan

Zusammenfassung

Die Schätzung von 3D-Posen aus einer monokularen Videosequenz bleibt weiterhin eine herausfordernde Aufgabe, trotz der erheblichen Fortschritte, die in den letzten Jahren erzielt wurden. Allgemein sinkt die Leistung bestehender Methoden, wenn die Zielperson zu klein oder zu groß erscheint, oder wenn ihre Bewegung zu schnell oder zu langsam im Vergleich zum Maßstab und der Geschwindigkeit der Trainingsdaten ist. Darüber hinaus sind, soweit uns bekannt, viele dieser Methoden nicht explizit für schwere Verdeckung (Occlusion) entworfen oder trainiert, was ihre Fähigkeit beeinträchtigt, solche Situationen zu bewältigen. Um diese Probleme anzugehen, stellen wir ein räumlich-zeitliches Netzwerk für robuste 3D-Menschenpose-Schätzung vor. Da Menschen in Videos unterschiedliche Skalen und diverse Bewegungsgeschwindigkeiten aufweisen können, wenden wir mehrskalige räumliche Merkmale zur Vorhersage von 2D-Gelenken oder Schlüsselpunkten in einzelnen Bildern an und mehrschrittige zeitliche Faltungsnetzwerke (Temporal Convolutional Networks, TCNs) zur Schätzung von 3D-Gelenken oder Schlüsselpunkten. Zudem entwerfen wir einen räumlich-zeitlichen Diskriminator, der auf Körperstrukturen sowie Gliedmaßenbewegungen basiert, um zu bewerten, ob die vorhergesagte Pose eine gültige Pose und eine gültige Bewegung darstellt. Während des Trainings maskieren wir explizit einige Schlüsselpunkte, um verschiedene Verdeckungsszenarien – von geringer bis schwerer Verdeckung – zu simulieren, sodass unser Netzwerk lernen kann, robust gegenüber unterschiedlichen Ausmaßen an Verdeckung zu werden. Da 3D-Referenzdaten begrenzt verfügbar sind, nutzen wir zusätzlich 2D-Videodaten, um unserer Architektur eine semi-supervised Lernfähigkeit zu verleihen. Experimente an öffentlichen Datensätzen bestätigen die Wirksamkeit unseres Ansatzes, und Ablationstudien zeigen die Stärken der einzelnen Submodule unseres Netzwerks.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
3D Human Pose Estimation mittels raumzeitlicher Netzwerke mit explizitem Training für Verdeckung | Paper | HyperAI