DenseRaC: Gemeinsame Schätzung von 3D-Gestalt und -Form durch dichte Render-und-Vergleiche

Wir präsentieren DenseRaC, einen neuartigen end-to-end-Framework zur gleichzeitigen Schätzung von 3D-Menschenpose und Körperform aus einem monokularen RGB-Bild. Unser zweistufiger Ansatz nutzt die Körper-Pixel-zu-Oberfläche-Zuordnungskarte (d.h. IUV-Karte) als Proxy-Darstellung und führt anschließend die Schätzung parametrisierter Menschenpose und -form durch. Konkret entwickeln wir ein tiefes neuronales Netzwerk, das 3D-Körperrekonstruktionsverluste optimiert und darüber hinaus eine Render-und-Vergleich-Schaltung integriert, um die Differenzen zwischen Eingabe und gerendertem Ausgabe zu minimieren – dies beinhaltet dichte Körperlandmarken, Körperteilmasken sowie adversarische Priorinformationen. Um das Lernen zu fördern, erstellen wir zudem eine großskalige synthetische Datensammlung (MOCA), die auf web-gescrapten Mocap-Sequenzen, 3D-Scans und Animationen basiert. Die generierten Daten decken eine Vielzahl von Kameraperspektiven, menschlichen Aktionen und Körperformen ab und sind mit vollständigen Ground-Truth-Daten versehen. Unser Modell lernt gemeinsam, den 3D-Menschenkörper aus hybriden Datensätzen zu repräsentieren, wodurch das Problem unpaariger Trainingsdaten gemildert wird. Unsere Experimente zeigen, dass DenseRaC gegenüber bestehenden State-of-the-Art-Methoden auf öffentlichen Benchmarks verschiedener menschenbezogener Aufgaben eine überlegene Leistung erzielt.