TesseTrack: End-to-End lernbare Mehrpersonen-artikulierte 3D-Pose-Verfolgung
{Srinivasa Narasimhan Jayan Eledath Leonid Pischulini Laurent Guigues N. Dinesh Reddy}

Abstract
Wir betrachten die Aufgabe der 3D-Gesten-Schätzung und -Verfolgung mehrerer Personen, die in einer beliebigen Anzahl von Kamerabildern erfasst werden. Wir stellen TesseTrack vor, einen neuartigen top-down-Ansatz, der gleichzeitig die 3D-Rekonstruktion der Körpergelenke mehrerer Individuen sowie deren Zuordnung im Raum und in der Zeit in einem einzigen end-to-end lernbaren Rahmen behandelt. Im Kern unseres Ansatzes liegt eine neue räumlich-zeitliche Formulierung, die in einem gemeinsamen voxelisierten Merkmalsraum arbeitet, der aus einzelnen oder mehreren Kamerabildern aggregiert wird. Nach einem Schritt der Personenerkennung erzeugt ein 4D-CNN kurzfristige, personenspezifische Darstellungen, die anschließend durch einen differenzierbaren Matcher über die Zeit hinweg verknüpft werden. Die verknüpften Beschreibungen werden dann zusammengeführt und mittels Deconvolution in 3D-Gesten transformiert. Diese integrierte räumlich-zeitliche Formulierung unterscheidet sich von vorherigen, abschnittsweisen Strategien, die die 2D-Gestenerkennung, die 2D-zu-3D-Aufhebung und die 3D-Gestenverfolgung als voneinander unabhängige Teilprobleme betrachten, die bei isolierter Lösung fehleranfällig sind. Darüber hinaus ist TesseTrack im Gegensatz zu früheren Methoden robust gegenüber Änderungen der Anzahl der Kamerabilder und erzielt bereits bei nur einer verfügbaren Ansicht zuverlässig gute Ergebnisse. Quantitative Evaluierungen der Genauigkeit der 3D-Gestenrekonstruktion auf etablierten Benchmarks zeigen deutliche Verbesserungen gegenüber dem Stand der Technik. Die Bewertung der mehrpersonenbasierten, artikulierten 3D-Gestenverfolgung in unserem neuartigen Evaluierungsrahmen belegt die Überlegenheit von TesseTrack gegenüber starken Baselines.
Benchmarks
| Benchmark | Methodik | Metriken |
|---|---|---|
| 3d-human-pose-estimation-on-cmu-panoptic | TesseTrack Multi-View (5 views) | Average MPJPE (mm): 7.3 |
| 3d-human-pose-estimation-on-cmu-panoptic | TesseTrack Monocular | Average MPJPE (mm): 18.9 |
| 3d-human-pose-estimation-on-human36m | TesseTrack (Monocular) | Average MPJPE (mm): 44.6 Multi-View or Monocular: Monocular Using 2D ground-truth joints: No |
| 3d-human-pose-estimation-on-human36m | TesseTrack (Multi-View) | Average MPJPE (mm): 18.7 Multi-View or Monocular: Multi-View Using 2D ground-truth joints: No |
| 3d-human-pose-tracking-on-cmu-panoptic | TesseTrack | 3DMOTA: 94.1 |
| 3d-multi-person-pose-estimation-on-campus | TesseTrack | PCP3D: 97.4 |
| 3d-multi-person-pose-estimation-on-cmu | TesseTrack | Average MPJPE (mm): 7.3 |
| 3d-multi-person-pose-estimation-on-shelf | TesseTrack (paper) | PCP3D: 98.2 |
| 3d-multi-person-pose-estimation-on-shelf | TesseTrack (correct) | PCP3D: 97.9 |
| 3d-pose-estimation-on-human3-6m | TesseTrack | Average MPJPE (mm): 18.7 |
KI mit KI entwickeln
Von der Idee bis zum Start — beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und den besten GPU-Preisen.