Von Einfach zu Mehr: Kontextuelle Part-Latents für die 3D-Generierung

Neuere Fortschritte bei der 3D-Generierung sind von mehrsichtigen 2D-Rendering-Ansätzen zu 3D-eigenen Latent-Diffusions-Rahmenwerken übergegangen, die geometrische A-priori-Wissen in realen Daten ausnutzen. Trotz dieser Fortschritte bestehen drei wesentliche Einschränkungen weiterhin: (1) Einzel-Latent-Darstellungen können komplexe Mehrteile-Geometrien nicht erfassen, was zu einer Verlust an Details führt; (2) Ganzheitliche Latent-Codierung ignoriert die Unabhängigkeit und die Interaktionen zwischen Teilen, die für eine kompositionelle Gestaltung entscheidend sind; (3) Globale Konditionierungsmechanismen verfügen über keine feingranulare Steuerbarkeit. Inspiriert durch menschliche 3D-Gestaltungsabläufe schlagen wir CoPart vor – einen teilbewussten Diffusionsrahmenwerk, das 3D-Objekte in kontextuelle Teil-Latente zerlegt, um kohärente Mehrteile-Generierung zu ermöglichen. Dieses Paradigma bietet drei Vorteile: i) Es reduziert die Kodierungskomplexität durch Teildarstellung; ii) Es ermöglicht explizites Modellieren von Teilbeziehungen; iii) Es unterstützt teilbezogene Konditionierung. Wir entwickeln zudem eine gegenseitige Leitstrategie, um vortrainierte Diffusionsmodelle für gemeinsames Entrauschen von Teil-Latenten zu feinjustieren, wodurch sowohl geometrische Kohärenz als auch die A-priori-Wissen des Grundmodells gewährleistet werden. Um groß angelegtes Training zu ermöglichen, erstellen wir Partverse – ein neues 3D-Teil-Datensatz, der durch automatisierte Netzsegmentierung und menschlich verifizierte Annotierungen aus Objaverse abgeleitet ist. Ausführliche Experimente zeigen CoParts überlegene Fähigkeiten bei teilbezogenem Bearbeiten, Generierung von Artikulationsobjekten und Szenekomposition mit bislang unbekannter Steuerbarkeit.