MoCap-gesteuerte Datenverstärkung für die 3D-Pose-Schätzung im Freien

Dieses Papier behandelt das Problem der 3D-Pose-Schätzung von Menschen in natürlichen Umgebungen. Eine wesentliche Herausforderung ist der Mangel an Trainingsdaten, d.h., 2D-Bilder von Menschen, die mit 3D-Posen annotiert sind. Solche Daten sind notwendig, um state-of-the-art CNN-Architekturen zu trainieren. Hier schlagen wir eine Lösung vor, um eine große Menge fotorealistischer synthetischer Bilder von Menschen mit 3D-Posen-Annotierungen zu generieren. Wir stellen einen bildbasierten Synthesizer vor, der einen Datensatz realer Bilder mit 2D-Pose-Annotierungen künstlich erweitert, indem er 3D-Motion-Capture (MoCap)-Daten verwendet. Für eine gegebene Kandidaten-3D-Pose wählt unser Algorithmus für jedes Gelenk ein Bild aus, dessen 2D-Pose lokal zur projizierten 3D-Pose passt. Die ausgewählten Bilder werden dann durch Verknüpfung lokaler Bildausschnitte unter Berücksichtigung kinematischer Einschränkungen zu einem neuen synthetischen Bild kombiniert. Die resultierenden Bilder werden verwendet, um ein end-to-end CNN für die Schätzung der vollen Körperpose in 3D zu trainieren. Wir gruppieren die Trainingsdaten in eine große Anzahl von Pose-Klassen und behandeln die Pose-Schätzung als ein K-Wege-Klassifikationsproblem. Ein solcher Ansatz ist nur mit großen Trainingsmengen wie unserer durchführbar. Unsere Methode übertrifft den Stand der Technik hinsichtlich der 3D-Pose-Schätzung in kontrollierten Umgebungen (Human3.6M) und zeigt vielversprechende Ergebnisse für Bilder aus natürlichen Umgebungen (LSP). Dies zeigt, dass CNNs, die auf künstlichen Bildern trainiert wurden, sich gut auf reale Bilder verallgemeinern lassen.