Effiziente Online-Mehrpersonen-2D-Poseverfolgung mit rekurrenten räumlich-zeitlichen Affinitätsfeldern

Wir präsentieren einen Online-Ansatz zur effizienten und gleichzeitigen Erkennung und Verfolgung der 2D-Pose mehrerer Personen in einer Videosequenz. Unser Ansatz basiert auf der für statische Bilder entwickelten Darstellung von Part Affinity Fields (PAF) und schlägt eine Architektur vor, die Spatio-Temporale Affinity Fields (STAF) über eine Videosequenz hinweg kodieren und vorhersagen kann. Insbesondere schlagen wir eine neuartige zeitliche Topologie vor, die über Gliedmaßen hinweg gekreuzt ist und konsistent Körperbewegungen unterschiedlichster Größenordnungen verarbeiten kann. Zudem gestalten wir den gesamten Ansatz rekurrent, wobei das Netzwerk STAF-Heatmaps aus früheren Frames verarbeitet und jene für den aktuellen Frame schätzt. Unser Ansatz verwendet ausschließlich Online-Inferenz und -Verfolgung und ist derzeit der schnellste und genaueste bottom-up-Ansatz, dessen Laufzeit unabhängig von der Anzahl der Personen in der Szene ist und dessen Genauigkeit unabhängig vom Eingabeframerate der Kamera ist. Bei einer Ausführungsrate von $\sim$30 fps auf einem einzelnen GPU in einer Skala erzielt er hochwettbewerbsfähige Ergebnisse in den PoseTrack-Benchmarks.