De l’un à plusieurs : Latents partiels contextuels pour la génération 3D

Les récentes avancées en génération 3D ont évolué des approches de rendu 2D multi-vues vers des cadres de diffusion latente natifs 3D qui exploitent les a priori géométriques dans les données de vérité terrain. Malgré ces progrès, trois limitations clés persistent : (1) Les représentations mono-latentes ne parviennent pas à capturer des géométries complexes à plusieurs parties, entraînant une dégradation des détails ; (2) Le codage latent holistique néglige l'indépendance et les interrelations entre les parties, essentielles pour la conception compositionnelle ; (3) Les mécanismes de conditionnement global manquent de contrôlabilité fine.Inspirés par les flux de travail de conception 3D humaine, nous proposons CoPart - un cadre de diffusion sensible aux parties qui décompose les objets 3D en latents partiels contextuels pour une génération cohérente à plusieurs parties. Ce paradigme offre trois avantages : i) Il réduit la complexité d'encodage grâce à la décomposition en parties ; ii) Il permet une modélisation explicite des relations entre les parties ; iii) Il supporte le conditionnement au niveau des parties.Nous développons également une stratégie de guidage mutuel pour affiner les modèles de diffusion pré-entraînés afin d'assurer le débruitage conjoint des latents partiels, garantissant ainsi à la fois la cohérence géométrique et les a priori du modèle fondamental. Pour permettre une formation à grande échelle, nous avons construit Partverse - un nouveau jeu de données 3D partiel dérivé d'Objaverse par segmentation automatique des maillages et annotations vérifiées par des humains.Des expériences étendues démontrent que CoPart possède des capacités supérieures en édition au niveau des parties, génération d'objets articulés et composition de scènes avec une contrôlabilité sans précédent.