HyperAIHyperAI
vor 17 Tagen

Kombination von Detektion und Verfolgung für die menschliche Pose-Schätzung in Videos

Manchen Wang, Joseph Tighe, Davide Modolo
Kombination von Detektion und Verfolgung für die menschliche Pose-Schätzung in Videos
Abstract

Wir stellen einen neuartigen top-down-Ansatz vor, der das Problem der Mehrpersonen-Human-Pose-Schätzung und -Verfolgung in Videos angeht. Im Gegensatz zu bestehenden top-down-Methoden ist unser Ansatz nicht durch die Leistungsfähigkeit seines Personen-Detektors begrenzt und kann die Pose von Personen schätzen, deren Positionen nicht lokalisiert wurden. Diese Fähigkeit erreichen wir durch die Vorwärts- und Rückwärtspropagierung bekannter Personenpositionen über die Zeit und die Suche nach Pose-Mustern in diesen Regionen. Unser Ansatz besteht aus drei Komponenten: (i) einem Clip Tracking Network, das gleichzeitig Körperteil-Detection und -Verfolgung auf kurzen Videoclips durchführt; (ii) einer Video Tracking Pipeline, die die festen Längen von Tracklets, die vom Clip Tracking Network erzeugt werden, zu beliebig langen Tracks zusammenführt; und (iii) einem räumlich-zeitlichen Verschmelzungsverfahren, das die Gelenkpositionen basierend auf räumlichen und zeitlichen Glättungstermen verfeinert. Durch die hohe Genauigkeit unseres Clip Tracking Networks und unseres Verschmelzungsverfahrens erzeugt unser Ansatz äußerst präzise Gelenkschätzungen und kann häufige Fehler in anspruchsvollen Szenarien – wie stark verflochtene Personen – korrigieren. Unser Ansatz erreicht state-of-the-art-Ergebnisse sowohl bei der Gelenkschätzung als auch bei der Verfolgung auf den PoseTrack 2017- und 2018-Datensätzen und übertrifft dabei sowohl alle top-down- als auch bottom-up-Ansätze.