Édition de niveau de pièce 3D robuste dans le recouvrement 3D Gaussien avec l'échantillonnage distillé des scores régularisés

Récents progrès dans les représentations 3D neuronales et les modèles d'édition au niveau des instances ont permis la création efficace de contenus 3D de haute qualité. Cependant, l'obtention d'éditions locales précises en 3D reste un défi, notamment pour le Gaussian Splatting, en raison de la segmentation incohérente des parties en 2D à partir de multiples vues et de la nature intrinsèquement ambiguë de la perte Score Distillation Sampling (SDS). Pour surmonter ces limites, nous proposons RoMaP, un nouveau cadre d'édition gaussienne 3D local, permettant des modifications précises et importantes au niveau des parties. Premièrement, nous introduisons un module de génération de masque 3D robuste basé sur notre prédiction de label orientée vers la géométrie 3D (3D-GALP), qui utilise les coefficients des harmoniques sphériques (SH) pour modéliser les variations des labels dépendants de la vue et la propriété des labels flous, aboutissant ainsi à des segmentations de parties précises et cohérentes à travers différentes vues. Deuxièmement, nous proposons une perte SDS régularisée, combinant la perte SDS standard avec des régularisateurs supplémentaires. En particulier, une perte L1 d'ancrage est introduite via notre méthode d'édition SLaMP (Scheduled Latent Mixing and Part), qui génère des images 2D de haute qualité modifiées au niveau des parties et limite les modifications uniquement à la région cible tout en préservant la cohérence contextuelle. Des régularisateurs supplémentaires, tels que la suppression de l'antécédent gaussien, améliorent davantage la flexibilité en permettant des modifications au-delà du contexte existant, tandis que le masquage 3D robuste évite les éditions indésirables. Les résultats expérimentaux montrent que notre RoMaP atteint un niveau d'édition 3D locale de pointe, tant qualitativement que quantitativement, sur les scènes et objets gaussiens reconstruits et générés, rendant ainsi possible une édition 3D gaussienne locale plus robuste et plus flexible.