HyperAIHyperAI
il y a 11 jours

DreamFusion : Texte vers 3D en utilisant la diffusion 2D

Ben Poole, Ajay Jain, Jonathan T. Barron, Ben Mildenhall
DreamFusion : Texte vers 3D en utilisant la diffusion 2D
Résumé

Les récents progrès dans la synthèse d’images à partir de texte ont été stimulés par des modèles de diffusion entraînés sur des milliards de paires image-texte. Adapter cette approche à la synthèse 3D nécessiterait des jeux de données à grande échelle comprenant des données 3D étiquetées ainsi que des architectures efficaces pour le débruitage des données 3D, deux éléments qui n’existent actuellement pas. Dans ce travail, nous contournons ces limitations en utilisant un modèle pré-entraîné de diffusion image-texte 2D pour réaliser la synthèse 3D à partir de texte. Nous introduisons une fonction de perte fondée sur la distillation de densité de probabilité, qui permet d’utiliser un modèle de diffusion 2D comme prior pour l’optimisation d’un générateur d’images paramétrique. En exploitant cette fonction de perte dans une procédure du type DeepDream, nous optimisons un modèle 3D initialisé aléatoirement (un Champ de Radiance Neuronal, ou NeRF) par descente de gradient, de manière à ce que ses rendus 2D obtenus à partir d’angles aléatoires atteignent une perte faible. Le modèle 3D ainsi obtenu à partir du texte donné peut être visualisé sous n’importe quel angle, éclairé par une illumination arbitraire, ou intégré dans tout environnement 3D. Notre approche ne nécessite ni données d’entraînement 3D, ni modification du modèle de diffusion d’image, démontrant ainsi l’efficacité des modèles de diffusion d’image pré-entraînés comme prior.

DreamFusion : Texte vers 3D en utilisant la diffusion 2D | Articles de recherche récents | HyperAI