HyperAIHyperAI
vor 16 Tagen

Magic3D: Hochauflösende Text-zu-3D-Inhaltsgenerierung

Chen-Hsuan Lin, Jun Gao, Luming Tang, Towaki Takikawa, Xiaohui Zeng, Xun Huang, Karsten Kreis, Sanja Fidler, Ming-Yu Liu, Tsung-Yi Lin
Magic3D: Hochauflösende Text-zu-3D-Inhaltsgenerierung
Abstract

DreamFusion hat kürzlich die Nützlichkeit eines vortrainierten Text-zu-Bild-Diffusionsmodells zur Optimierung von Neural Radiance Fields (NeRF) demonstriert und bemerkenswerte Ergebnisse bei der Text-zu-3D-Synthese erzielt. Das Verfahren weist jedoch zwei inhärente Einschränkungen auf: (a) eine extrem langsame Optimierung von NeRF und (b) eine Niedrigauflösungs-Bildraum-Überwachung von NeRF, was zu qualitativ minderwertigen 3D-Modellen mit langen Verarbeitungszeiten führt. In diesem Artikel lösen wir diese Herausforderungen durch die Einführung eines zweistufigen Optimierungsrahmens. Zunächst gewinnen wir mit einem Niedrigauflösungs-Diffusionsprior ein grobes Modell und beschleunigen die Berechnung durch eine spärliche 3D-Hash-Grid-Struktur. Anschließend nutzen wir die grobe Darstellung als Initialisierung, um ein texturiertes 3D-Mesh-Modell effizient mit einem differentiablen Renderer zu optimieren, der mit einem Hochauflösungs-Latent-Diffusionsmodell interagiert. Unsere Methode, die als Magic3D bezeichnet wird, ermöglicht die Erstellung hochwertiger 3D-Mesh-Modelle innerhalb von 40 Minuten – das entspricht einer Verdoppelung der Geschwindigkeit im Vergleich zu DreamFusion (berichtete durchschnittliche Laufzeit: 1,5 Stunden) – und erreicht zudem eine höhere Auflösung. Nutzerstudien zeigen, dass 61,7 % der Teilnehmer unsere Methode gegenüber DreamFusion bevorzugen. In Kombination mit der Fähigkeit zur bildbasierten Generierung eröffnen wir den Nutzern neue Möglichkeiten zur Steuerung der 3D-Synthese und eröffnen damit neue Wege für vielfältige kreative Anwendungen.

Magic3D: Hochauflösende Text-zu-3D-Inhaltsgenerierung | Neueste Forschungsarbeiten | HyperAI