SVMAC: Unüberwachte 3D-Pose-Schätzung von Menschen aus einem einzelnen Bild unter Verwendung der Einzelansicht-Mehrere-Winkel-Konsistenz

Die Rekonstruktion der 3D-Menschlichen Pose aus 2D-Gelenken stellt weiterhin eine herausfordernde Aufgabe dar, insbesondere ohne 3D-Annotationen, Videoinformationen oder mehrfachansichtige Informationen. In dieser Arbeit präsentieren wir ein unüberwachtes GAN-basiertes Modell, das aus mehreren gewichtsgeteilten Generatoren besteht und eine 3D-Menschliche Pose aus einem einzelnen Bild ohne 3D-Annotationen schätzt. In unserem Modell führen wir die Einzelansicht-mehrfachwinklige Konsistenz (SVMAC) ein, um die Schätzleistung erheblich zu verbessern. Mit den 2D-Gelenkpositionen als Eingabe schätzt unser Modell sowohl eine 3D-Pose als auch eine Kamera simultan. Während des Trainings wird die geschätzte 3D-Pose um zufällige Winkel rotiert, und die geschätzte Kamera projiziert die rotierten 3D-Posen zurück auf 2D. Die 2D-Rückprojektionen werden in die gewichtsgeteilten Generatoren eingespeist, um die entsprechenden 3D-Posen und Kameras zu schätzen, welche dann gemischt werden, um SVMAC-Bedingungen aufzulegen und den Trainingsprozess selbstüberwacht zu gestalten. Die experimentellen Ergebnisse zeigen, dass unsere Methode den aktuellen Stand der Technik bei unüberwachten Methoden auf Human 3.6M und MPI-INF-3DHP übertrifft. Darüber hinaus deuten qualitative Ergebnisse auf MPII und LSP darauf hin, dass unsere Methode sich gut auf unbekannte Daten verallgemeinern lässt.