HyperAIHyperAI
vor 11 Tagen

DreamFusion: Text-to-3D mittels 2D Diffusion

Ben Poole, Ajay Jain, Jonathan T. Barron, Ben Mildenhall
DreamFusion: Text-to-3D mittels 2D Diffusion
Abstract

Neue Durchbrüche in der Text-zu-Bild-Synthese wurden durch Diffusionsmodelle ermöglicht, die auf Milliarden von Bild-Text-Paaren trainiert wurden. Die Anpassung dieses Ansatzes zur 3D-Synthese würde große, beschriftete Datensätze von 3D-Daten und effiziente Architekturen zur Rauschunterdrückung in 3D-Daten erfordern – beides, was derzeit nicht existiert. In dieser Arbeit umgehen wir diese Einschränkungen, indem wir ein vortrainiertes 2D-Text-zu-Bild-Diffusionsmodell zur Text-zu-3D-Synthese nutzen. Wir führen eine Verlustfunktion basierend auf der Dichteverdichtung (probability density distillation) ein, die es ermöglicht, ein 2D-Diffusionsmodell als Prior für die Optimierung eines parametrischen Bildgenerators zu verwenden. Durch die Anwendung dieses Verlusts in einer DeepDream-ähnlichen Prozedur optimieren wir über Gradientenabstieg ein zufällig initialisiertes 3D-Modell (eine Neural Radiance Field, kurz NeRF), sodass dessen 2D-Renderings aus zufälligen Blickwinkeln einen geringen Verlust erzielen. Das resultierende 3D-Modell des angegebenen Textes kann aus beliebigen Blickwinkeln betrachtet, mit beliebiger Beleuchtung neu beleuchtet oder in beliebige 3D-Umgebungen komponiert werden. Unser Ansatz erfordert weder 3D-Trainingsdaten noch Änderungen am Bild-Diffusionsmodell und demonstriert die Wirksamkeit vortrainierter Bild-Diffusionsmodelle als Prior.

DreamFusion: Text-to-3D mittels 2D Diffusion | Neueste Forschungsarbeiten | HyperAI