HyperAIHyperAI
vor 12 Tagen

TesseTrack: End-to-End lernbare Mehrpersonen-artikulierte 3D-Pose-Verfolgung

{Srinivasa Narasimhan, Jayan Eledath, Leonid Pischulini, Laurent Guigues, N. Dinesh Reddy}
TesseTrack: End-to-End lernbare Mehrpersonen-artikulierte 3D-Pose-Verfolgung
Abstract

Wir betrachten die Aufgabe der 3D-Gesten-Schätzung und -Verfolgung mehrerer Personen, die in einer beliebigen Anzahl von Kamerabildern erfasst werden. Wir stellen TesseTrack vor, einen neuartigen top-down-Ansatz, der gleichzeitig die 3D-Rekonstruktion der Körpergelenke mehrerer Individuen sowie deren Zuordnung im Raum und in der Zeit in einem einzigen end-to-end lernbaren Rahmen behandelt. Im Kern unseres Ansatzes liegt eine neue räumlich-zeitliche Formulierung, die in einem gemeinsamen voxelisierten Merkmalsraum arbeitet, der aus einzelnen oder mehreren Kamerabildern aggregiert wird. Nach einem Schritt der Personenerkennung erzeugt ein 4D-CNN kurzfristige, personenspezifische Darstellungen, die anschließend durch einen differenzierbaren Matcher über die Zeit hinweg verknüpft werden. Die verknüpften Beschreibungen werden dann zusammengeführt und mittels Deconvolution in 3D-Gesten transformiert. Diese integrierte räumlich-zeitliche Formulierung unterscheidet sich von vorherigen, abschnittsweisen Strategien, die die 2D-Gestenerkennung, die 2D-zu-3D-Aufhebung und die 3D-Gestenverfolgung als voneinander unabhängige Teilprobleme betrachten, die bei isolierter Lösung fehleranfällig sind. Darüber hinaus ist TesseTrack im Gegensatz zu früheren Methoden robust gegenüber Änderungen der Anzahl der Kamerabilder und erzielt bereits bei nur einer verfügbaren Ansicht zuverlässig gute Ergebnisse. Quantitative Evaluierungen der Genauigkeit der 3D-Gestenrekonstruktion auf etablierten Benchmarks zeigen deutliche Verbesserungen gegenüber dem Stand der Technik. Die Bewertung der mehrpersonenbasierten, artikulierten 3D-Gestenverfolgung in unserem neuartigen Evaluierungsrahmen belegt die Überlegenheit von TesseTrack gegenüber starken Baselines.

TesseTrack: End-to-End lernbare Mehrpersonen-artikulierte 3D-Pose-Verfolgung | Neueste Forschungsarbeiten | HyperAI