LION: Latent Point Diffusion Models für die 3D-Formgenerierung

Denoising-Diffusion-Modelle (DDMs) haben vielversprechende Ergebnisse bei der Synthese von 3D-Punktwolken gezeigt. Um 3D-DDMs weiterzuentwickeln und sie für digitale Künstler nutzbar zu machen, sind folgende Eigenschaften erforderlich: (i) hohe Generationsqualität, (ii) Flexibilität hinsichtlich Manipulation und Anwendungen wie bedingte Synthese und Forminterpolation sowie (iii) die Fähigkeit, glatte Oberflächen oder Meshes zu erzeugen. Hierzu stellen wir das hierarchische Latent-Point-Diffusion-Modell (LION) für die 3D-Formgenerierung vor. LION ist als Variational Autoencoder (VAE) konzipiert, der einen hierarchischen Latentraum nutzt, der eine globale Form-Latentrepräsentation mit einem punktstrukturierten Latentraum kombiniert. Zur Generierung trainieren wir zwei hierarchische DDMs in diesen Latenträumen. Der hierarchische VAE-Ansatz steigert die Leistung gegenüber DDMs, die direkt auf Punktwolken operieren, während die punktstrukturierten Latentvariablen weiterhin ideal für DDM-basierte Modellierung geeignet sind. Experimentell erreicht LION auf mehreren ShapeNet-Benchmarks die derzeit beste Generationsleistung. Darüber hinaus ermöglicht unser VAE-Framework eine einfache Anpassung von LION für verschiedene relevante Aufgaben: LION überzeugt bei multimodaler Form-Denoisierung und voxelbedingter Synthese und kann zudem für text- und bildgesteuerte 3D-Generierung angepasst werden. Zudem zeigen wir die Auto-Encoding von Formen sowie Latent-Form-Interpolation und ergänzen LION durch moderne Techniken zur Oberflächenrekonstruktion, um glatte 3D-Meshes zu generieren. Wir hoffen, dass LION aufgrund seiner hohen Generationsqualität, Flexibilität und Oberflächenrekonstruktion ein leistungsfähiges Werkzeug für Künstler darstellt, die mit 3D-Formen arbeiten. Projektseite und Code: https://nv-tlabs.github.io/LION.