vor einem Monat

Ordinal Depth Supervision für die 3D-Pose-Schätzung von Menschen

Georgios Pavlakos; Xiaowei Zhou; Kostas Daniilidis

Abstract

Unsere Fähigkeit, End-to-End-Systeme zur 3D-Pose-Schätzung von Menschen aus einzelnen Bildern zu trainieren, ist derzeit durch die begrenzte Verfügbarkeit von 3D-Annotierungen für natürliche Bilder eingeschränkt. Die meisten Datensätze werden unter Studio-Bedingungen mit Bewegungserfassungssystemen (Motion Capture, MoCap) aufgenommen, und es ist schwierig, die Vielfalt von 2D-Menschpose-Datensätzen wie MPII oder LSP zu erreichen. Um die Notwendigkeit genauer 3D-Ground-Truth-Daten zu reduzieren, schlagen wir vor, ein schwächeres Supervisionssignal durch die ordinale Tiefe der menschlichen Gelenke zu verwenden. Diese Informationen können von menschlichen Annotatoren für eine breite Palette von Bildern und Posen erworben werden. Wir demonstrieren die Effektivität und Flexibilität des Trainings von Faltungsnetzen (Convolutional Networks, ConvNets) mit diesen ordinalen Beziehungen in verschiedenen Szenarien und erreichen dabei stets wettbewerbsfähige Leistungen im Vergleich zu ConvNets, die mit genauen 3D-Gelenkkoodinaten trainiert wurden. Zudem zeigen wir das Potenzial des Ansatzes, indem wir den beliebten LSP- und MPII-Datensatz um ordinale Tiefeannotierungen erweitern. Diese Erweiterung ermöglicht es uns, quantitative und qualitative Bewertungen in nicht-studiomäßigen Bedingungen vorzustellen. Gleichzeitig können diese ordinalen Annotierungen leicht in das Trainingsverfahren typischer ConvNets für die 3D-Pose-Schätzung integriert werden. Durch diese Einbeziehung erreichen wir neue Standartsleistungen (state-of-the-art performance) für relevante Benchmarks und bestätigen die Effektivität der ordinalen Tiefensupervision für die 3D-Pose-Schätzung von Menschen.