Einzelansichts-3D-Körper- und Kleidungsrekonstruktion unter komplexen Pose

Neuere Fortschritte in der Rekonstruktion dreidimensionaler menschlicher Körperformen aus einzelnen Bildern haben beeindruckende Ergebnisse gezeigt, indem tiefgehende Netzwerke genutzt wurden, die sogenannte implizite Funktionen modellieren, um den Besetzungsstatus beliebig dichter 3D-Punkte im Raum zu lernen. Dennoch erfordern aktuelle Algorithmen, die auf diesem Paradigma basieren, wie beispielsweise PiFuHD, hochauflösende Eingabebilder und sind nicht in der Lage, komplexe Körperformen korrekt zu erfassen. Die überwiegende Mehrheit der Trainings- und Evaluationsarbeiten wird an 1k-Auflösungsbildern von Menschen durchgeführt, die vor der Kamera in neutraler Körperhaltung stehen. In diesem Artikel nutzen wir öffentlich verfügbare Daten, um bestehende auf impliziten Funktionen basierende Modelle zu erweitern, sodass sie auch Bilder von Menschen mit beliebigen Körperhaltungen und selbstverdeckten Gliedmaßen verarbeiten können. Wir argumentieren, dass die Darstellungskraft der impliziten Funktion allein nicht ausreicht, um gleichzeitig geometrische Details und komplexe Körperformen präzise zu modellieren. Daher schlagen wir einen grob-zu-fein-Ansatz vor, bei dem zunächst eine implizite Funktion gelernt wird, die das Eingabebild auf eine 3D-Körperform mit geringem Detailgrad abbildet, die den zugrundeliegenden menschlichen Pose dennoch korrekt erfasst, auch bei komplexen Haltungen. Anschließend wird eine Verschiebungsabbildung gelernt, die auf der geglätteten Oberfläche und dem Eingabebild bedingt ist und die hochfrequenten Details von Kleidung und Körperkонтur kodiert. In der experimentellen Evaluation zeigen wir, dass dieser grob-zu-fein-Ansatz ein hervorragendes Gleichgewicht zwischen geometrischer Detailgenauigkeit und korrekter Körperhaltung darstellt und sich gegenüber den neuesten Stand der Technik positiv abhebt. Unser Quellcode wird öffentlich verfügbar gemacht.