Maske als Überwachung: Nutzung vereinter Maske-Informationen für die unüberwachte 3D-Pose-Schätzung

Die automatische Schätzung der 3D-Menschlichen-Pose aus monokularen RGB-Bildern ist eine herausfordernde und bisher ungelöste Aufgabe im Bereich der Computer Vision. Bei überwachten Ansätzen hängen die Methoden stark von aufwendigen Annotationen ab und weisen aufgrund der begrenzten Vielfalt von 3D-Pose-Datensätzen eingeschränkte Generalisierungsfähigkeiten auf. Um diese Herausforderungen zu bewältigen, schlagen wir ein einheitliches Framework vor, das Masken als Überwachung für die unüberwachte 3D-Pose-Schätzung nutzt. Mit allgemeinen unüberwachten Segmentierungsverfahren verwendet das vorgeschlagene Modell Skelett- und Körperformdarstellungen, die genaue Poseinformationen von grob zu fein nutzen. Im Vergleich zu früheren unüberwachten Ansätzen organisieren wir das menschliche Skelett vollständig unüberwacht, was es ermöglicht, annotierte Daten zu verarbeiten und bereit zur Verwendung stehende Schätzergebnisse bereitzustellen. Ausführliche Experimente zeigen unsere Stand-der-Technik-Leistung bei der Pose-Schätzung an den Datensätzen Human3.6M und MPI-INF-3DHP. Weitere Experimente mit realen Datensätzen verdeutlichen zudem die Fähigkeit, mehr Daten zu nutzen, um unser Modell zu verbessern. Der Code wird unter https://github.com/Charrrrrlie/Mask-as-Supervision verfügbar sein.