OpenPifPaf: Komplexe Felder für die semantische Keypoint-Erkennung und die räumlich-zeitliche Assoziation

Viele bildbasierte Wahrnehmungsaufgaben können als die Detektion, Zuordnung und Verfolgung semantischer Keypoints formuliert werden, z.B. die Schätzung und Verfolgung der menschlichen Körperhaltung. In dieser Arbeit präsentieren wir ein allgemeines Framework, das die simultane Detektion und Bildung von räumlich-zeitlichen Keypoint-Zuordnungen in einer einzigen Stufe ermöglicht, wodurch es sich um den ersten Echtzeit-Algorithmus für Haltungsdetektion und -verfolgung handelt. Wir stellen eine generische neuronale Netzwerkarchitektur vor, die Composite Fields verwendet, um eine räumlich-zeitliche Haltung zu detektieren und zu konstruieren. Diese Haltung ist ein einzelner, zusammenhängender Graph, dessen Knoten die semantischen Keypoints (z.B. Körperteile einer Person) in mehreren Frames sind. Für die zeitlichen Zuordnungen führen wir das Temporal Composite Association Field (TCAF) ein, das eine erweiterte Netzwerkarchitektur und Trainingsmethode erfordert, die über die bisherigen Composite Fields hinausgehen. Unsere Experimente zeigen eine wettbewerbsfähige Genauigkeit, während sie gleichzeitig um einen Faktor zehn schneller auf mehreren öffentlich zugänglichen Datensätzen wie COCO, CrowdPose sowie den PoseTrack 2017 und 2018 Datensätzen sind. Darüber hinaus zeigen wir, dass unsere Methode auf beliebige Klassen von semantischen Keypoints wie Autoteile und Tierkörperteile verallgemeinert werden kann, um ein ganzheitliches Wahrnehmungsframework bereitzustellen, das sich gut für städtische Mobilitätsszenarien wie autonom fahrende Autos und Lieferroboter eignet.