HyperAIHyperAI
vor 4 Monaten

Die Ernte von mehreren Ansichten für die Annotation der 3D-Menschlichen-Pose ohne Markierungen

Georgios Pavlakos; Xiaowei Zhou; Konstantinos G. Derpanis; Kostas Daniilidis
Die Ernte von mehreren Ansichten für die Annotation der 3D-Menschlichen-Pose ohne Markierungen
Abstract

Neuere Fortschritte bei Faltungsnetzen (ConvNets) haben die Engstelle für viele Computer Vision-Aufgaben auf die Sammlung annotierter Daten verschoben. In dieser Arbeit stellen wir einen geometriegetriebenen Ansatz vor, um Annotationen für Aufgaben zur Vorhersage der menschlichen Haltung automatisch zu sammeln. Ausgehend von einem generischen ConvNet für 2D-menschliche Haltung und unter der Annahme einer Multi-View-Einrichtung beschreiben wir eine automatische Methode zur Sammlung präziser 3D-Annotationen der menschlichen Haltung. Wir nutzen die durch die 3D-Geometrie der Kameraeinrichtung und die 3D-Struktur des menschlichen Körpers gebotenen Restriktionen, um die pro Sicht getroffenen 2D-Vorhersagen des ConvNets wahrscheinlichkeitsbasiert zu einer global optimalen 3D-Haltung zusammenzuführen. Diese 3D-Haltung dient als Grundlage für das Ernten von Annotationen. Der Nutzen der mit unserem Ansatz automatisch erzeugten Annotationen wird in zwei anspruchsvollen Szenarien gezeigt: (i) das Feinjustieren eines generischen ConvNet-basierten 2D-Haltungsprädiktors, um die diskriminativen Aspekte des Erscheinungsbildes eines Subjekts zu erfassen (d.h., "Personalisierung"), und (ii) das Trainieren eines ConvNets von Grund auf neu zur Vorhersage der 3D-menschlichen Haltung aus einer einzelnen Sicht, ohne auf 3D-Haltungsgrundwahrheit zurückzugreifen. Der vorgeschlagene Multi-View-Haltungsprädiktor erreicht Stand-of-the-Art-Ergebnisse bei Standard-Benchmarks, was die Effektivität unserer Methode bei der Nutzung der verfügbaren Multi-View-Informationen zeigt.