3D 가우시안 스플래싱에서 정규화된 스코어 디스틸레이션 샘플링을 이용한 강건한 3D-마스킹 파트 레벨 편집

3D 신경 표현과 인스턴스 수준 편집 모델의 최근 발전은 고품질 3D 콘텐츠의 효율적인 생성을 가능하게 하였다. 그러나, 특히 Gaussian Splatting에서 다중 뷰 2D 부분 세그멘테이션이 일관되지 않으며 Score Distillation Sampling (SDS) 손실의 본질적인 모호성으로 인해 정밀한 로컬 3D 편집을 달성하는 것은 여전히 어려운 과제이다. 이러한 한계를 극복하기 위해, 우리는 정밀하고 극적인 부분 수준의 3D Gaussian 편집을 가능하게 하는 새로운 프레임워크인 RoMaP을 제안한다. 첫째, 우리는 3D-Geometry Aware Label Prediction (3D-GALP)을 도입하여, 구면 조화(스피어리컬 하모닉스, Spherical Harmonics: SH) 계수를 이용해 뷰에 따라 달라지는 라벨 변화와 소프트 라벨 속성을 모델링하고, 다양한 시점에서 정확하고 일관된 부분 세그멘테이션을 제공하는 강력한 3D 마스크 생성 모듈을 설계하였다. 둘째, 표준 SDS 손실에 추가적인 정규화 요소를 결합한 정규화된 SDS 손실을 제안한다. 특히, 우리의 Scheduled Latent Mixing and Part (SLaMP) 편집 방법을 통해 L1 앵커 손실이 도입되었으며, 이는 높은 품질의 부분 편집된 2D 이미지를 생성하고, 전체 맥락의 일관성을 유지하면서도 편집을 대상 영역에만 제한한다. 또한, Gaussian 사전 분포 제거와 같은 추가 정규화 요소는 기존 맥락을 넘어서는 편집을 가능하게 하여 유연성을 향상시키며, 견고한 3D 마스킹은 의도치 않은 편집을 방지한다. 실험 결과는 RoMaP이 재구성된 및 생성된 Gaussian 장면과 객체에서 정량적이고 정성적으로 최첨단의 로컬 3D 편집 성능을 달성함을 보여주며, 이는 더 견고하고 유연한 부분 수준의 3D Gaussian 편집을 가능하게 한다.