LGM: Großes mehransichtiges Gauss-Modell zur Erstellung von hochauflösenden 3D-Inhalten
LGM: Großes mehransichtiges Gauss-Modell zur Erstellung von hochauflösenden 3D-Inhalten
Jiaxiang Tang Zhaoxi Chen Xiaokang Chen Tengfei Wang Gang Zeng Ziwei Liu

Abstract
Die Erstellung von 3D-Inhalten hat sowohl in Bezug auf Qualität als auch Geschwindigkeit erhebliche Fortschritte erzielt. Obwohl aktuelle Feed-Forward-Modelle 3D-Objekte in Sekunden erzeugen können, ist ihre Auflösung durch die rechenintensiven Anforderungen während des Trainings begrenzt. In diesem Artikel stellen wir den Large Multi-View Gaussian Model (LGM) vor, einen neuartigen Ansatz zur Generierung hochauflösender 3D-Modelle aus Textprompten oder Einzelansichtsbildern. Unserer zentralen Erkenntnisse folgend, basieren wir auf zwei zentralen Aspekten: 1) 3D-Darstellung: Wir schlagen multi-view-Gauß-Features als eine effiziente und leistungsstarke Darstellungsform vor, die anschließend für eine differenzierbare Darstellung zusammengeführt werden können. 2) 3D-Backbone: Wir präsentieren ein asymmetrisches U-Net als hochdurchsatzfähiges Backbone, das auf Multi-View-Bildern arbeitet und aus Texteingaben oder Einzelansichtsbildern durch Nutzung von Multi-View-Diffusionsmodellen generiert werden kann. Umfangreiche Experimente belegen die hohe Fidelität und Effizienz unseres Ansatzes. Insbesondere gelingt es uns, die Geschwindigkeit für die Erzeugung von 3D-Objekten auf unter fünf Sekunden zu halten, während gleichzeitig die Trainingsauflösung auf 512 erhöht wird – somit erreichen wir eine hochauflösende Generierung von 3D-Inhalten.
Code-Repositories
KI mit KI entwickeln
Von der Idee bis zum Start — beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und den besten GPU-Preisen.