LION: 3D_SHAPE 생성을 위한 잠재 점 확산 모델

노이즈 제거 확산 모델(Denoising Diffusion Models, DDMs)은 3차원 포인트 클라우드 합성 분야에서 희망적인 성과를 보여주고 있다. 3차원 DDMs의 발전을 통해 디지털 아티스트들에게 실질적인 도구로 활용할 수 있도록 하기 위해, 우리는 (i) 높은 생성 품질, (ii) 조건부 합성, 형태 보간 등 다양한 조작 및 응용에 유연한 대응 능력, 그리고 (iii) 부드러운 표면 또는 메쉬를 출력할 수 있는 능력이 필요하다. 이를 달성하기 위해 우리는 3차원 형태 생성을 위한 계층적 잠재 포인트 확산 모델(Latent Point Diffusion Model, LION)을 제안한다. LION은 전역 형태 잠재 표현과 포인트 구조화 잠재 공간을 결합한 계층적 잠재 공간을 갖춘 변분 오토인코더(Variational Autoencoder, VAE) 구조로 설계되었다. 생성 과정에서는 이러한 잠재 공간 내에서 두 개의 계층적 DDM을 학습한다. 계층적 VAE 접근 방식은 포인트 클라우드에 직접 작용하는 DDM보다 성능이 향상되며, 동시에 포인트 구조화 잠재 변수는 DDM 기반 모델링에 이상적인 구조를 유지한다. 실험적으로 LION은 여러 ShapeNet 기준에서 최신 기술 수준의 생성 성능을 달성하였다. 더불어, 본 연구의 VAE 프레임워크는 다양한 관련 작업에 LION을 쉽게 활용할 수 있도록 한다. LION은 다중 모달 형태 노이즈 제거와 복셀 조건부 합성에서 뛰어난 성능을 보이며, 텍스트 및 이미지 기반 3차원 생성에도 적합하게 확장 가능하다. 또한, 형태 자동 인코딩과 잠재 공간 내 형태 보간을 구현하였으며, 최신 표면 재구성 기법을 LION에 통합하여 부드러운 3차원 메쉬 생성을 가능하게 하였다. LION은 높은 품질의 생성 능력, 뛰어난 유연성, 그리고 표면 재구성 기능을 바탕으로, 3차원 형태 작업에 종사하는 아티스트들에게 강력한 도구가 되기를 기대한다. 프로젝트 페이지 및 코드: https://nv-tlabs.github.io/LION