HyperAIHyperAI

Command Palette

Search for a command to run...

DreamFusion: Text-to-3D mittels 2D Diffusion

Ben Poole Ajay Jain Jonathan T. Barron Ben Mildenhall

Zusammenfassung

Neue Durchbrüche in der Text-zu-Bild-Synthese wurden durch Diffusionsmodelle ermöglicht, die auf Milliarden von Bild-Text-Paaren trainiert wurden. Die Anpassung dieses Ansatzes zur 3D-Synthese würde große, beschriftete Datensätze von 3D-Daten und effiziente Architekturen zur Rauschunterdrückung in 3D-Daten erfordern – beides, was derzeit nicht existiert. In dieser Arbeit umgehen wir diese Einschränkungen, indem wir ein vortrainiertes 2D-Text-zu-Bild-Diffusionsmodell zur Text-zu-3D-Synthese nutzen. Wir führen eine Verlustfunktion basierend auf der Dichteverdichtung (probability density distillation) ein, die es ermöglicht, ein 2D-Diffusionsmodell als Prior für die Optimierung eines parametrischen Bildgenerators zu verwenden. Durch die Anwendung dieses Verlusts in einer DeepDream-ähnlichen Prozedur optimieren wir über Gradientenabstieg ein zufällig initialisiertes 3D-Modell (eine Neural Radiance Field, kurz NeRF), sodass dessen 2D-Renderings aus zufälligen Blickwinkeln einen geringen Verlust erzielen. Das resultierende 3D-Modell des angegebenen Textes kann aus beliebigen Blickwinkeln betrachtet, mit beliebiger Beleuchtung neu beleuchtet oder in beliebige 3D-Umgebungen komponiert werden. Unser Ansatz erfordert weder 3D-Trainingsdaten noch Änderungen am Bild-Diffusionsmodell und demonstriert die Wirksamkeit vortrainierter Bild-Diffusionsmodelle als Prior.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp