Vid2Avatar: 3D-Avatar-Rekonstruktion aus Videos im Wild durch selbstüberwachte Szenezerlegung

Wir stellen Vid2Avatar vor, eine Methode zur Erstellung von menschlichen Avataren aus monokularen Videos im freien Feld. Die Rekonstruktion von Menschen, die sich natürlicherweise bewegen, aus monokularen Videos im freien Feld ist schwierig. Dies erfordert eine genaue Trennung der Menschen von beliebigen Hintergründen. Zudem ist es notwendig, detaillierte 3D-Oberflächen aus kurzen Videosequenzen zu rekonstruieren, was die Aufgabe noch weiter erschwert. Trotz dieser Herausforderungen benötigt unsere Methode keine Ground-Truth-Überwachung oder Vorwissen, das aus großen Datensätzen von gescannten Menschen mit Kleidung extrahiert wurde. Wir stützen uns auch nicht auf externe Segmentierungsmodule. Stattdessen löst sie die Aufgaben der Szenezerlegung und Oberflächenrekonstruktion direkt in 3D, indem sowohl den Menschen als auch den Hintergrund in der Szene gemeinsam modelliert werden, wobei beide durch zwei getrennte neurale Felder parametrisiert sind. Insbesondere definieren wir eine zeitlich konsistente Darstellung des Menschen im kanonischen Raum und formulieren eine globale Optimierung über das Hintergrundmodell, die kanonische menschliche Form und Textur sowie die pro Frame menschlichen Poseparameter. Eine grob-zu-feine Abtaststrategie für Volumenrendering und neue Ziele werden eingeführt, um eine saubere Trennung zwischen dynamischem Menschen und statischem Hintergrund zu erreichen, was detaillierte und robuste 3D-Rekonstruktionen der menschlichen Geometrie ermöglicht. Wir evaluieren unsere Methoden an öffentlich verfügbaren Datensätzen und zeigen Verbesserungen gegenüber früheren Arbeiten.