HyperAIHyperAI
vor 17 Tagen

Kinematisch-aware hierarchische Aufmerksamkeitsnetzwerk für die menschliche Pose-Schätzung in Videos

Kyung-Min Jin, Byoung-Sung Lim, Gun-Hee Lee, Tae-Kyung Kang, Seong-Whan Lee
Kinematisch-aware hierarchische Aufmerksamkeitsnetzwerk für die menschliche Pose-Schätzung in Videos
Abstract

Bisherige videobasierte Methoden zur menschlichen Pose-Schätzung haben vielversprechende Ergebnisse erzielt, indem sie aggregierte Merkmale aufeinanderfolgender Frames nutzten. Allerdings kompromittieren die meisten Ansätze die Genauigkeit, um Zitterbewegungen zu verringern, oder erfassen die zeitlichen Aspekte der menschlichen Bewegung nicht ausreichend. Zudem steigt die Unsicherheit zwischen aufeinanderfolgenden Frames bei Verdeckung (Occlusion), was zu unglatten Ergebnissen führt. Um diese Probleme zu lösen, entwerfen wir eine Architektur, die kinematische Merkmale von Gelenkpunkten (keypoints) mit folgenden Komponenten ausnutzt. Erstens erfassen wir effizient zeitliche Merkmale durch die Nutzung der Geschwindigkeit und Beschleunigung einzelner Gelenkpunkte. Zweitens aggregiert der vorgeschlagene hierarchische Transformer-Encoder räumlich-zeitliche Abhängigkeiten und verfeinert die 2D- oder 3D-Pose, die aus bestehenden Schätzern stammt. Schließlich stellen wir eine Online-Cross-Supervision zwischen der aus dem Encoder verfeinerten Eingabepose und der endgültigen Pose aus unserem Decoder bereit, um eine gemeinsame Optimierung zu ermöglichen. Wir präsentieren umfassende Ergebnisse und bestätigen die Wirksamkeit unseres Modells in verschiedenen Aufgaben: 2D-Pose-Schätzung, 3D-Pose-Schätzung, Körper-Mesh-Rekonstruktion sowie sparsam annotierte Mehrperson-Pose-Schätzung. Unser Code ist verfügbar unter https://github.com/KyungMinJin/HANet.