SIFU: Seitenansichtskonditionierte Implizite Funktion für die realwelttaugliche Rekonstruktion von Menschen in Kleidung

Die Erstellung hochwertiger 3D-Modelle von Menschen in Kleidung aus einzelnen Bildern ist für reale Anwendungen entscheidend. Trotz jüngster Fortschritte bleibt die genaue Rekonstruktion von Menschen in komplexen Poses oder mit loser Kleidung aus unkontrollierten Bildern sowie die Vorhersage von Texturen für nicht sichtbare Bereiche eine erhebliche Herausforderung. Eine wesentliche Einschränkung früherer Methoden liegt in ihrem mangelhaften Vorwissen bei der Transition von 2D zu 3D und bei der Texturvorhersage. Als Antwort darauf präsentieren wir SIFU (Side-view Conditioned Implicit Function for Real-world Usable Clothed Human Reconstruction), einen neuen Ansatz, der einen Side-view Decoupling Transformer mit einem 3D-konsistenten Texturverfeinerungsprozess kombiniert. SIFU nutzt ein Cross-Attention-Mechanismus innerhalb des Transformers, wobei SMPL-X-Normalen als Abfragen verwendet werden, um die Side-view-Features effektiv zu entkoppeln, während 2D-Features auf 3D abgebildet werden. Diese Methode verbessert nicht nur die Genauigkeit der 3D-Modelle, sondern auch ihre Robustheit, insbesondere wenn die SMPL-X-Schätzungen nicht perfekt sind. Unser Texturverfeinerungsprozess nutzt ein text-zu-Bild-Diffusionsmodell als Prior, um realistische und konsistente Texturen für unsichtbare Ansichten zu generieren.Durch umfangreiche Experimente übertrifft SIFU die bisher besten Methoden (SOTA) sowohl in der Geometrie- als auch in der Texturrekonstruktion und zeigt eine erhöhte Robustheit in komplexen Szenarien sowie eine bislang unbekannte Chamfer- und P2S-Messung. Unser Ansatz erweitert sich auf praktische Anwendungen wie den 3D-Druck und die Szeneriegestaltung, was seine breite Nutzbarkeit in realen Szenarien unterstreicht. Projektseite: https://river-zhang.github.io/SIFU-projectpage/ .