SiTH: Rekonstruktion von texturierten Menschen aus einer einzigen Ansicht mit bildbasiertem Diffusionsmodell

Ein langjähriges Ziel der 3D-Menschenrekonstruktion ist die Erstellung lebensechter und vollständig detaillierter 3D-Menschen aus Einzelansichtsbildern. Die Hauptausforderung besteht darin, unbekannte Körperformen, Erscheinungen und Kleidungsdetails in Bereichen zu inferieren, die auf den Bildern nicht sichtbar sind. Um dieses Problem anzugehen, schlagen wir SiTH vor, eine neuartige Pipeline, die ein bildbedingtes Diffusionsmodell einzigartig in einen Workflow zur 3D-Gitterrekonstruktion integriert. Im Zentrum unserer Methode steht die Zerlegung des anspruchsvollen Problems der Einzelansichtsrekonstruktion in generative Halluzination und Rekonstruktionsunterprobleme. Für das erstere verwenden wir ein leistungsfähiges generatives Diffusionsmodell, um unbekannte Rückansichten basierend auf den Eingangsbildern zu halluzinieren. Für das letztere nutzen wir skinierte Körpergitter als Leitlinie, um vollkörpertexturierte Gitter aus den Eingangs- und Rückansichtsbildern wiederherzustellen. SiTH erfordert für das Training nur etwa 500 3D-Menschenabtastungen, während es seine Allgemeinheit und Robustheit gegenüber diversen Bildern beibehält. Ausführliche Evaluierungen an zwei 3D-Menschenbenchmarks, einschließlich unseres neu erstellten Benchmarks, unterstrichen die überlegene Genauigkeit und wahrnehmungsbezogene Qualität unserer Methode bei der 3D-texturierten Menschenrekonstruktion. Unser Code und der Evaluationsbenchmark sind unter https://ait.ethz.ch/sith verfügbar.