11일 전

형태 지도형 3D 형태 및 텍스처 생성을 위한 잠재-NeRF

Gal Metzer, Elad Richardson, Or Patashnik, Raja Giryes, Daniel Cohen-Or
형태 지도형 3D 형태 및 텍스처 생성을 위한 잠재-NeRF
초록

최근 몇 년간 텍스트 기반 이미지 생성 기술은 급속도로 발전하며, 텍스트 기반 형상 생성 분야에서도 중요한 돌파구를 이루었다. 최근 연구에서는 스코어 디스틸레이션(score distillation) 기법을 활용해 NeRF(Neural Radiance Fields) 모델을 텍스트로 안내하여 3차원 객체를 생성하는 것이 가능함이 입증되었다. 본 연구에서는 이러한 스코어 디스틸레이션 기법을 공개된 계산 효율성이 높은 잠재 공간 확산 모델(Latent Diffusion Models)에 적용한다. 이 모델들은 사전 훈련된 오토인코더의 압축된 잠재 공간에서 전체 확산 과정을 수행한다. 반면 NeRF는 이미지 공간에서 작동하기 때문에, 잠재 공간 스코어 디스틸레이션을 직접 적용하기 위한 단순한 접근법은 각 안내 단계마다 잠재 공간으로 인코딩하는 과정이 반복되어야 한다. 이를 해결하기 위해 우리는 NeRF를 잠재 공간으로 이동시키는 방식을 제안하며, 이를 '잠재-NeRF(Latent-NeRF)'라 명명한다.잠재-NeRF를 분석한 결과, 텍스트 기반 3차원 생성 모델은 인상적인 결과를 도출할 수 있지만, 본질적으로 제약이 없으며 특정 3차원 구조를 정확히 안내하거나 강제하는 능력이 부족할 수 있음을 확인하였다. 이러한 문제를 해결하기 위해, 원하는 객체의 거시적 구조를 정의하는 추상적인 기하학적 형태인 '스케치-형상(Sketch-Shape)'을 활용하여 잠재-NeRF를 안내하는 새로운 방식을 제안한다. 또한, 이러한 제약 조건을 잠재-NeRF 내부에 직접 통합하는 방법을 제시한다. 텍스트와 형상의 이러한 독특한 조합은 생성 과정에 대해 훨씬 더 높은 제어력을 제공한다. 더 나아가, 잠재 스코어 디스틸레이션이 3차원 메시 위에 직접 적용될 수 있음을 보여주며, 주어진 기하 구조에 대해 고품질의 텍스처를 생성할 수 있음을 입증한다. 실험 결과는 다양한 형태의 안내 방식이 효과적임과 함께, 잠재 렌더링 기법의 효율성을 확인한다. 구현 코드는 https://github.com/eladrich/latent-nerf 에서 공개되어 있다.

형태 지도형 3D 형태 및 텍스처 생성을 위한 잠재-NeRF | 최신 연구 논문 | HyperAI초신경