Ganzkörper-Mensch-Pose-Schätzung in der Wildnis

Diese Arbeit untersucht die Aufgabe der 2D-Ganzkörper-Pose-Schätzung menschlicher Körper, bei der dichte Landmarken über den gesamten menschlichen Körper – einschließlich Gesicht, Hände, Körper und Füße – lokalisiert werden sollen. Da bestehende Datensätze keine Ganzkörper-Annotationen enthalten, mussten bisherige Methoden verschiedene tiefe Modelle kombinieren, die unabhängig auf unterschiedlichen Datensätzen für Gesicht, Hände und Körper trainiert wurden. Dies führt zu Problemen durch Datensatz-Biase und einer hohen Modellkomplexität. Um diese Lücke zu schließen, stellen wir COCO-WholeBody vor, eine Erweiterung des COCO-Datensatzes um Ganzkörper-Annotationen. Sofern wir wissen, ist dies der erste Benchmark, der manuelle Annotationen für den gesamten menschlichen Körper enthält, bestehend aus 133 dichten Landmarken – 68 am Gesicht, 42 an den Händen und 23 am Körper sowie den Füßen. Wir entwickeln ein einheitliches Netzwerkmodell namens ZoomNet, das die hierarchische Struktur des menschlichen Körpers berücksichtigt, um die Skalenvariation verschiedener Körperteile bei derselben Person zu bewältigen. ZoomNet erreicht erheblich bessere Ergebnisse als bestehende Methoden auf dem vorgeschlagenen COCO-WholeBody-Datensatz. Umfangreiche Experimente zeigen, dass COCO-WholeBody nicht nur zur direkten Trainingsausbildung tiefer Modelle für die Ganzkörper-Pose-Schätzung verwendet werden kann, sondern auch als leistungsfähiges Vortrainings-Datenset für zahlreiche andere Aufgaben – wie Gesichtslandmarkenerkennung und Hand-Keypoint-Schätzung – dienen kann. Der Datensatz ist öffentlich unter https://github.com/jin-s13/COCO-WholeBody verfügbar.