4DNeX: Feed-Forward 4D Generative Modeling Made Easy

Wir stellen 4DNeX vor, den ersten feed-forward-Framework zur Generierung von 4D-(d.h. dynamischen 3D-)Szenendarstellungen aus einer einzigen Bildquelle. Im Gegensatz zu bestehenden Methoden, die auf rechenintensive Optimierungsverfahren angewiesen sind oder mehrere Bildfolgen in Form von Videosequenzen erfordern, ermöglicht 4DNeX eine effiziente, end-to-end-Bild-zu-4D-Generierung durch Feinabstimmung eines vortrainierten Videodiffusionsmodells. Konkret: 1) Um die Knappheit an 4D-Daten zu überwinden, erstellen wir 4DNeX-10M, eine großskalige Datensammlung mit hochwertigen 4D-Annotationen, die mittels fortschrittlicher Rekonstruktionsverfahren generiert wurden. 2) Wir führen eine einheitliche 6D-Videodarstellung ein, die RGB- und XYZ-Sequenzen gemeinsam modelliert und somit eine strukturierte Lernung sowohl von Erscheinungsbild als auch von Geometrie ermöglicht. 3) Wir schlagen eine Reihe einfacher, jedoch wirksamer Anpassungsstrategien vor, um vortrainierte Videodiffusionsmodelle für die 4D-Modellierung nutzbar zu machen. 4DNeX erzeugt hochwertige dynamische Punktwolken, die die Synthese von Ansichtswechseln in Videos ermöglichen. Umfangreiche Experimente zeigen, dass 4DNeX bestehende Ansätze zur 4D-Generierung in Effizienz und Verallgemeinerungsfähigkeit übertrifft und somit eine skalierbare Lösung für die Bild-zu-4D-Modellierung darstellt und die Grundlage für generative 4D-Weltmodelle legt, die die dynamische Entwicklung von Szenen simulieren können.