Human-VDM: Lernen von 3D-Gaußschen Splittings aus einem einzelnen Bild mittels Video-Diffusionsmodelle

Die Erstellung realistischer 3D-Menschen aus einem einzelnen RGB-Bild bleibt eine herausfordernde Aufgabe im Bereich der Computer Vision, da sie eine genaue Modellierung der Geometrie, hochwertige Textur und plausibel nicht sichtbare Teile erfordert. Bestehende Methoden verwenden in der Regel mehrsichtige Diffusionsmodelle zur 3D-Generierung, aber sie stoßen oft auf konsistenzprobleme zwischen den Ansichten, die eine hochwertige 3D-Menschenerstellung behindern. Um dies zu beheben, schlagen wir Human-VDM vor, eine neuartige Methode zur Generierung von 3D-Menschen aus einem einzelnen RGB-Bild unter Verwendung von Video-Diffusionsmodellen. Human-VDM bietet zeitlich konsistente Ansichten für die 3D-Menschenerstellung durch Gauß-Splatting. Es besteht aus drei Modulen: einem ansichtskonsistenten Human-Video-Diffusionsmodul, einem Video-Augmentierungsmodul und einem Gauß-Splatting-Modul. Zunächst wird ein einzelnes Bild in das Human-Video-Diffusionsmodul eingegeben, um ein zusammenhängendes Human-Video zu generieren. Anschließend wendet das Video-Augmentierungsmodul Superresolution und Video-Interpolation an, um die Textur und geometrische Glätte des generierten Videos zu verbessern. Schließlich lernt das 3D-Human-Gauß-Splatting-Modul realistische Menschen unter der Anleitung dieser hochaufgelösten und ansichtskonsistenten Bilder. Experimente zeigen, dass Human-VDM hochwertige 3D-Menschen aus einem einzelnen Bild erzeugt und sowohl in Bezug auf die Generierungsgüte als auch auf die Menge den aktuellen Stand der Technik übertrifft.Projektseite: https://human-vdm.github.io/Human-VDM/