HyperAIHyperAI
vor 2 Monaten

Graf und zeitliche Faltungsnetze für die 3D-Mehrpersonen-Poseestimation in monokularen Videos

Cheng, Yu ; Wang, Bo ; Yang, Bo ; Tan, Robby T.
Graf und zeitliche Faltungsnetze für die 3D-Mehrpersonen-Poseestimation in monokularen Videos
Abstract

Trotz der jüngsten Fortschritte ist die 3D-Mehrpersonen-Pose-Schätzung aus monokularen Videos aufgrund des häufig auftretenden Problems von fehlender Information, verursacht durch Verdeckungen, teilweise außerhalb des Bildausschnitts befindliche Zielobjekte und ungenaue Personenerkennung, weiterhin herausfordernd. Um dieses Problem zu bewältigen, schlagen wir ein neues Framework vor, das Graph Convolutional Networks (GCNs) und Temporal Convolutional Networks (TCNs) integriert, um robust die kamerazentrischen Mehrpersonen-3D-Posen zu schätzen, ohne Kameraparameter zu benötigen. Insbesondere führen wir ein Human-Joint-GCN ein, das im Gegensatz zu bestehenden GCNs auf einem gerichteten Graphen basiert und die Konfidenzwerte des 2D-Pose-Schätzers verwendet, um die Posen-Schätzresultate zu verbessern. Zudem stellen wir ein Human-Bone-GCN vor, das die Knochenverbindungen modelliert und zusätzliche Informationen über die menschlichen Gelenke hinaus bereitstellt. Die beiden GCNs arbeiten zusammen, um die räumlichen rahmengenaueren 3D-Posen zu schätzen und können sowohl sichtbare Gelenk- als auch Knocheninformationen im Zielrahmen nutzen, um verdeckte oder fehlende menschliche Teilinformationen zu schätzen. Um die 3D-Pose-Schätzung weiter zu verfeinern, verwenden wir unsere TCNs, um zeitliche und dynamische Menschenbewegungsrestriktionen durchzusetzen. Wir verwenden ein Joint-TCN zur Schätzung personenzentrierter 3D-Posen über mehrere Frames hinweg und schlagen ein Velocity-TCN vor, um die Geschwindigkeit der 3D-Gelenke zu schätzen und so die Konsistenz der 3D-Pose-Schätzung in aufeinanderfolgenden Frames sicherzustellen. Schließlich, um die 3D-Menschposes für mehrere Personen zu schätzen, führen wir ein Root-TCN ein, das kamerazentrische 3D-Posen ohne Kameraparameter schätzt. Quantitative und qualitative Auswertungen zeigen die Effektivität der vorgeschlagenen Methode.