RepNet: Schwach überwachte Trainierung eines adversären Reprojektionsnetzwerks für die 3D-Pose-Schätzung von Menschen

Dieses Papier behandelt das Problem der 3D-Pose-Schätzung von Menschen aus einzelnen Bildern. Während menschliche Skelette lange Zeit durch die Parametrisierung und Anpassung an die Beobachtungen unter Berücksichtigung eines Reprojektionsfehlers modelliert wurden, verwenden Forscher heute direkt neuronale Netze, um die 3D-Pose aus den Beobachtungen abzuleiten. Dennoch ignorieren die meisten dieser Ansätze die Tatsache, dass eine Reprojektionsbedingung erfüllt werden muss, und sie sind anfällig für Überanpassung. Wir angehen das Problem der Überanpassung, indem wir 2D- zu 3D-Korrespondenzen außer Acht lassen. Dies vermeidet effizient eine einfache Merkphase der Trainingsdaten und ermöglicht eine schwach überwachte Trainierung. Ein Teil des vorgeschlagenen Reprojektionsnetzes (RepNet) lernt mit einem adversären Trainingsansatz eine Abbildung von einer Verteilung von 2D-Posen auf eine Verteilung von 3D-Posen. Ein weiterer Teil des Netzes schätzt die Kamera. Dies ermöglicht es, eine Netzwerk-Schicht zu definieren, die die Reprojektion der geschätzten 3D-Pose zurück auf 2D durchführt, was in einer Reprojektionsverlustfunktion resultiert. Unsere Experimente zeigen, dass RepNet sich gut auf unbekannte Daten verallgemeinert und bei Anwendung auf unbekannte Daten den aktuellen Stand der Technik übertreffen kann. Darüber hinaus läuft unsere Implementierung in Echtzeit auf einem Standard-Desktop-PC.