Lernen der zeitlichen Pose-Schätzung aus dünn beschrifteten Videos

Moderne Ansätze zur Mehrpersonen-Pose-Schätzung in Videos erfordern große Mengen dichter Annotationen. Das Beschriften jeder einzelnen Bildschirmfolge in einem Video ist jedoch kostspielig und zeitaufwendig. Um das Bedürfnis nach dichten Annotationen zu reduzieren, schlagen wir ein PoseWarper-Netzwerk vor, das aus Trainingsvideos mit dünnen Annotationen (jede k-te Bildschirmfolge) lernt, um eine dichte zeitliche Pose-Ausbreitung und -Schätzung durchzuführen. Gegeben sei ein Paar von Video-Bildschirmfolgen – eine beschriftete Bildschirmfolge A und eine unbezeichnete Bildschirmfolge B –, wir trainieren unser Modell, die menschliche Pose in Bildschirmfolge A unter Verwendung der Merkmale aus Bildschirmfolge B mittels deformierbarer Faltungen zu prognostizieren, um die implizite Lernung der Pose-Warping zwischen A und B zu ermöglichen. Wir zeigen, dass wir unser trainiertes PoseWarper-Netzwerk für mehrere Anwendungen nutzen können. Erstens können wir bei der Inferenz die Anwendungsrichtung unseres Netzwerks umkehren, um Posedaten von manuell beschrifteten Bildschirmfolgen auf unbezeichnete Bildschirmfolgen zu übertragen. Dies ermöglicht es uns, Posedaten für das gesamte Video zu generieren, wenn nur wenige manuell beschriftete Bildschirmfolgen vorliegen. Im Vergleich zu modernen Label-Propagation-Methoden basierend auf optischem Fluss sind unsere Warping-Mechanismen viel kompakter (6M gegenüber 39M Parametern) und auch genauer (88,7% mAP gegenüber 83,8% mAP). Zudem zeigen wir, dass wir die Genauigkeit eines Pose-Schätzers verbessern können, indem wir ihn auf einem erweiterten Datensatz trainieren, der durch Hinzufügen unserer propagierten Posen zu den ursprünglichen manuellen Labels entsteht. Schließlich können wir unser PoseWarper-Netzwerk verwenden, um während der Inferenz zeitliche Posedaten aus benachbarten Bildschirmfolgen zusammenzufassen. Dies ermöglicht es unserem System, erstklassige Ergebnisse bei der Posen-Detektion im PoseTrack2017- und PoseTrack2018-Datensatz zu erzielen. Der Quellcode ist unter folgender URL verfügbar: https://github.com/facebookresearch/PoseWarper.