Vereinen der Menschen: Schließen der Schleife zwischen 3D- und 2D-Menschendarstellungen

3D-Modelle bieten eine gemeinsame Grundlage für verschiedene Darstellungen menschlicher Körper. Robuste 2D-Schätzverfahren haben sich als mächtiges Werkzeug erwiesen, um 3D-Anpassungen "im Wild" zu erzielen. Allerdings kann es je nach Detailgrad schwierig bis unmöglich sein, groß angelegte etikettierte Daten für das Training von 2D-Schätzern zu beschaffen. Wir schlagen einen hybriden Ansatz für dieses Problem vor: Mit einer erweiterten Version der kürzlich eingeführten SMPLify-Methode erhalten wir hochwertige 3D-Körpermodelldarstellungen für mehrere menschliche Pose-Datensätze. Menschliche Annotatoren sortieren ausschließlich gute und schlechte Anpassungen. Dieses Verfahren führt zu einem anfänglichen Datensatz, UP-3D, mit reichhaltigen Annotationen. Durch eine umfangreiche Reihe von Experimenten zeigen wir, wie diese Daten verwendet werden können, um diskriminative Modelle zu trainieren, die Ergebnisse mit einem bislang unbekannten Detailgrad liefern: Unsere Modelle prognostizieren 31 Segmente und 91 Landmarken auf dem Körper. Unter Verwendung des 91-Landmark-Pose-Schätzers präsentieren wir Stand-der-Technik-Ergebnisse für die Schätzung der 3D-menschlichen Pose und Form, wobei wir ein Vielfaches weniger Trainingsdaten verwenden und keine Annahmen über Geschlecht oder Pose im Anpassungsprozess treffen. Wir zeigen außerdem, dass UP-3D durch diese verbesserten Anpassungen in Menge und Qualität gesteigert werden kann, was das System zur Großskaleneinsatzfähigkeit macht. Die Daten, Code und Modelle sind für Forschungszwecke verfügbar.