Schwach überwachtes generatives Netzwerk für mehrere 3D-Mensch-Pose-Hypothesen

Die Schätzung der 3D-Pose eines Menschen aus einem einzelnen Bild ist ein inverses Problem aufgrund der inhärenten Unbestimmtheit der fehlenden Tiefe. Mehrere frühere Arbeiten haben dieses inverse Problem durch die Generierung mehrerer Hypothesen angegangen. Diese Ansätze sind jedoch stark überwacht und erfordern wahre 2D-zu-3D-Korrespondenzen, die schwierig zu erlangen sein können. In dieser Arbeit schlagen wir ein schwach überwachtes tiefes generatives Netzwerk vor, um das inverse Problem zu lösen und den Bedarf an wahren 2D-zu-3D-Korrespondenzen zu umgehen. Dazu entwerfen wir unser Netzwerk so, dass es eine Vorschlagsverteilung modelliert, die wir verwenden, um die unbekannte multimodale Ziel-Posteriorverteilung zu approximieren. Die Approximation erreichen wir durch die Minimierung der Kullback-Leibler-Divergenz zwischen den Vorschlags- und Zielverteilungen, was zu einem 2D-Reprojektionsfehler und einem Prior-Verlustterm führt, die schwach überwacht werden können. Darüber hinaus bestimmen wir die wahrscheinlichste Lösung als den bedingten Modus der Proben mittels des Mean-Shift-Algorithmus. Wir evaluieren unsere Methode anhand dreier Benchmark-Datensätze – Human3.6M, MPII und MPI-INF-3DHP. Die experimentellen Ergebnisse zeigen, dass unser Ansatz in der Lage ist, mehrere zulässige Hypothesen zu generieren und vergleichbare erstklassige Resultate gegenüber existierenden schwach überwachten Ansätzen erzielt. Unser Quellcode ist auf der Projektwebsite verfügbar.