Diffuman4D: 4D-konsistente Humansichtsynthese aus dünn besetzten Videodaten mit räumlich-zeitlichen Diffusionsmodellen

Dieses Papier behandelt die Herausforderung der hochgenauen Sichtsynthese von Menschen unter Verwendung von Videos mit wenigen Aufnahmewinkeln als Eingabe. Vorherige Methoden lösen das Problem unzureichender Beobachtungen, indem sie 4D-Diffusionsmodelle nutzen, um Videos aus neuen Perspektiven zu generieren. Allerdings fehlen den von diesen Modellen erzeugten Videos oft räumlich-zeitliche Konsistenz, was die Qualität der Sichtsynthese beeinträchtigt. In diesem Artikel schlagen wir einen neuen schrittweisen iterativen Entverhausungsprozess vor, um die räumlich-zeitliche Konsistenz des 4D-Diffusionsmodells zu verbessern. Genauer gesagt definieren wir ein latentes Gitter, in dem jedes latente Element das Bild, die Kameraposition und die Körperhaltung eines Menschen für einen bestimmten Winkel und Zeitstempel kodiert. Anschließend entverhausen wir das latente Gitter schrittweise entlang der räumlichen und zeitlichen Dimensionen mit einem gleitenden Fenster und decodieren schließlich die Videos aus den gewünschten Perspektiven aus den entsprechenden entverhausenden latenten Elementen. Durch die iterative Schiebung fließt die Information hinreichend durch das latente Gitter, wodurch das Diffusionsmodell einen großen Rezeptorbereich erhält und somit die 4D-Konsistenz der Ausgabe verbessert, während gleichzeitig der GPU-Speicherverbrauch in akzeptablen Grenzen bleibt. Die Experimente anhand der DNA-Rendering- und ActorsHQ-Datensätze zeigen, dass unsere Methode hochwertige und konsistente Videos aus neuen Perspektiven synthetisieren kann und dabei deutlich über den bestehenden Ansätzen liegt. Interaktive Demos und Videoergebnisse finden Sie auf unserer Projektseite: https://diffuman4d.github.io/ .