HyperAIHyperAI
vor 4 Monaten

Menschliche Pose-Schätzung im Raum und in der Zeit mit 3D-CNN

Agne Grinciunaite; Amogh Gudi; Emrah Tasli; Marten den Uyl
Menschliche Pose-Schätzung im Raum und in der Zeit mit 3D-CNN
Abstract

Dieses Papier untersucht die Fähigkeiten von Faltungsneuronalen Netzen (Convolutional Neural Networks, CNNs), eine Aufgabe zu bewältigen, die für Menschen leicht handhabbar ist: die Wahrnehmung der 3D-Haltung eines menschlichen Körpers aus verschiedenen Blickwinkeln. In unserem Ansatz sind wir jedoch auf das Einsatzgebiet eines einäugigen Sehsystems beschränkt. Zu diesem Zweck wenden wir einen Ansatz mit Faltungsneuronalen Netzen auf RGB-Videos an und erweitern ihn auf dreidimensionale Faltungen. Dies wird erreicht, indem die Zeitdimension in Videos als dritte Dimension im Faltungsraum kodiert wird, und durch direkte Regression auf die Gelenkpositionen des menschlichen Körpers im 3D-Koordinatenraum. Diese Forschung zeigt, dass ein solches Netzwerk in der Lage ist, den Stand der Technik in der Leistung am gewählten Human3.6M-Datensatz zu erreichen, was die Möglichkeit einer erfolgreichen Darstellung zeitlicher Daten durch eine zusätzliche Dimension in der Faltungsoperation demonstriert.