ARCH++: Wiederbetrachtung der Animation-fähigen Kleidungstranskription des menschlichen Körpers

Wir präsentieren ARCH++, eine bildbasierte Methode zur Rekonstruktion von 3D-Avataren mit beliebigen Kleidungsstilen. Unsere rekonstruierten Avatare sind animierbereit und hochgradig realistisch, sowohl in den sichtbaren Bereichen der Eingansansichten als auch in den unsichtbaren Bereichen. Obwohl frühere Arbeiten großes Potenzial zeigen, animierbare menschliche Figuren mit verschiedenen Topologien zu rekonstruieren, beobachten wir, dass es fundamentale Einschränkungen gibt, die zu einer suboptimalen Rekonstruktionsqualität führen. In dieser Arbeit untersuchen wir die wesentlichen Schritte der bildbasierten Avatar-Rekonstruktion und adressieren diese Einschränkungen mit ARCH++. Zunächst führen wir einen end-to-end punktbasierten Geometrie-Encoder ein, um die Semantik des zugrunde liegenden 3D-Menschenkörpers besser zu beschreiben, anstelle der bisher manuell gestalteten Merkmale. Zweitens schlagen wir ein ko-supervisierendes Framework mit überraumlicher Konsistenz vor, um die Besetztheit sowohl im posierten als auch im kanonischen Raum gemeinsam abzuschätzen und damit die durch topologische Veränderungen von gekleideten Menschen im kanonischen Pose verursachte Besetzungsumbiguität zu lösen. Schließlich verwenden wir Bild-zu-Bild-Übersetzungsnetze (image-to-image translation networks), um die detaillierte Geometrie und Textur auf der rekonstruierten Oberfläche weiter zu verfeinern, was die Treue und Konsistenz über beliebige Ansichten hinweg verbessert. In den Experimenten zeigen wir Verbesserungen gegenüber dem Stand der Technik sowohl in öffentlichen Benchmarks als auch in Nutzerstudien hinsichtlich der Rekonstruktionsqualität und Realismus.