HyperAIHyperAI
vor 2 Monaten

OpenPose: Echtzeit-Multi-Personen-2D-Pose-Schätzung unter Verwendung von Part-Affinity-Feldern

Zhe Cao; Gines Hidalgo; Tomas Simon; Shih-En Wei; Yaser Sheikh
OpenPose: Echtzeit-Multi-Personen-2D-Pose-Schätzung unter Verwendung von Part-Affinity-Feldern
Abstract

Die Echtzeit-Mehrpersonen-2D-Pose-Schätzung ist ein wesentlicher Bestandteil, um Maschinen zu ermöglichen, Menschen in Bildern und Videos zu verstehen. In dieser Arbeit stellen wir einen Echtzeitanansatz vor, um die 2D-Pose mehrerer Personen in einem Bild zu erkennen. Das vorgeschlagene Verfahren verwendet eine nichtparametrische Darstellung, die wir als Part Affinity Fields (PAFs) bezeichnen, um das Lernen der Zuordnung von Körperteilen zu Individuen im Bild zu ermöglichen. Dieses bottom-up System erreicht hohe Genauigkeit und Echtzeit-Leistung, unabhängig von der Anzahl der Personen im Bild. In früheren Arbeiten wurden PAFs und die Schätzung der Körperteilpositionen gleichzeitig über die Trainingsphasen verfeinert. Wir zeigen, dass eine ausschließliche Verfeinerung der PAFs im Vergleich zur gleichzeitigen Verfeinerung von PAFs und Körperteilpositionen zu einer erheblichen Steigerung sowohl der Laufzeitleistung als auch der Genauigkeit führt. Des Weiteren präsentieren wir den ersten kombinierten Detektor für Körper- und Fuß-Keypoints, basierend auf einem intern annotierten Fuß-Datensatz, den wir öffentlich veröffentlicht haben. Wir demonstrieren, dass der kombinierte Detektor nicht nur die Inferenzzeit im Vergleich zum sequentiellen Betrieb reduziert, sondern auch die Genauigkeit jeder Komponente einzeln beibehält. Diese Arbeit hat schließlich zur Veröffentlichung von OpenPose geführt, dem ersten quelloffenen Echtzeitsystem zur Mehrpersonen-2D-Pose-Erkennung, einschließlich Körper-, Fuß-, Hand- und Gesichts-Keypoints.