Objektverdeckte Schätzung von Menschform und -pose aus einem einzigen Farbbild

Oklusionen zwischen Mensch und Objekten, insbesondere im Kontext menschlicher Interaktionen mit Objekten, sind in praktischen Anwendungen sehr häufig. Die meisten bestehenden Ansätze zur 3D-Schätzung von menschlicher Gestalt und Pose erfordern jedoch, dass der menschliche Körper gut erfasst ist, ohne signifikante Okklusionen oder lediglich geringfügige Selbstokklusionen. In diesem Paper konzentrieren wir uns auf das Problem der direkten Schätzung der menschlichen Gestalt und Pose aus einzelnen Farbbildern unter Berücksichtigung von Objektokklusionen. Unser zentrales Konzept besteht darin, eine partielle UV-Karte zur Darstellung eines durch Objekte verdeckten menschlichen Körpers zu nutzen, wodurch die vollständige 3D-Gestalt-Schätzung letztlich als ein Bild-Inpainting-Problem formuliert wird. Wir schlagen eine neuartige Zweig-Netzarchitektur vor, die einen end-to-end-Regressor mittels Latent-Feature-Supervision trainiert, wobei zusätzlich ein neuartiges Saliency-Map-Subnetz integriert ist, um menschliche Informationen aus durch Objekte verdeckten Farbbildern zu extrahieren. Zur Supervision des Netzwerktrainings haben wir zudem ein neues Datenset namens 3DOH50K erstellt. Mehrere Experimente werden durchgeführt, um die Wirksamkeit des vorgeschlagenen Ansatzes zu demonstrieren. Die experimentellen Ergebnisse zeigen, dass die vorgeschlagene Methode im Vergleich zu früheren Methoden die derzeit beste Leistung erzielt. Das Datenset und der Quellcode sind öffentlich unter https://www.yangangwang.com verfügbar.