드림퓨전: 2D 디퓨전을 이용한 텍스트 기반 3D 생성

최근 텍스트-이미지 합성 분야의 돌파구는 수십억 개의 이미지-텍스트 쌍으로 훈련된 확산 모델(diffusion models)에 의해 주도되어 왔다. 이러한 접근 방식을 3차원(3D) 합성에 적용하기 위해서는 레이블이 붙은 대규모 3D 데이터셋과 3D 데이터의 노이즈 제거를 위한 효율적인 아키텍처가 필요하지만, 현재는 이러한 자원이 존재하지 않는다. 본 연구에서는 이러한 제약을 회피하기 위해 사전 훈련된 2차원(2D) 텍스트-이미지 확산 모델을 활용하여 텍스트-3D 합성 작업을 수행한다. 우리는 확률 밀도 전이(probability density distillation) 기반의 손실 함수를 제안하여, 2D 확산 모델을 매개변수형 이미지 생성기의 사전 지식(prior)으로 활용할 수 있도록 한다. 이 손실 함수를 DeepDream과 유사한 절차에 적용함으로써, 무작위로 초기화된 3D 모델(신경 복사도 필드, Neural Radiance Field, NeRF)을 경사 하강법을 통해 최적화한다. 최적화 과정에서는 해당 3D 모델의 임의 각도에서 렌더링한 2D 이미지가 낮은 손실을 갖도록 한다. 결과적으로 주어진 텍스트에 해당하는 3D 모델은 임의의 각도에서 시각화할 수 있으며, 임의의 조명 조건으로 재조명하거나, 어떠한 3D 환경에도 자연스럽게 합성할 수 있다. 본 방법은 3D 훈련 데이터가 필요 없으며, 이미지 확산 모델에 대한 수정도 필요하지 않다. 이는 사전 훈련된 이미지 확산 모델이 사전 지식으로서 매우 효과적임을 보여주는 결과이다.