13일 전

GENIE: 신경 광선 밀도 필드의 인터랙티브 편집을 위한 가우시안 인코딩

Mikołaj Zieliński, Krzysztof Byrski, Tomasz Szczepanik, Przemysław Spurek
GENIE: 신경 광선 밀도 필드의 인터랙티브 편집을 위한 가우시안 인코딩
초록

최근 들어 신경망 기반 복소 장면 표현 및 렌더링 기술로 네트워크 기반 복소장면 표현(Neural Radiance Fields, NeRF)과 가우시안 스플래팅(Gaussian Splatting, GS)이 3차원 장면 표현 및 렌더링 분야에서 획기적인 발전을 이끌고 있다. NeRF는 신경망을 통해 부피적 표현을 학습함으로써 높은 품질의 새로운 시점 생성을 달성하지만, 은닉적 표현 방식을 사용하기 때문에 편집 및 물리적 상호작용이 어렵다는 한계가 있다. 반면 GS는 장면을 가우시안 원소들의 명시적 집합으로 표현함으로써 실시간 렌더링, 빠른 학습, 직관적인 조작이 가능하다. 이러한 명시적 구조 덕분에 GS는 상호작용 기반 편집 및 물리 기반 시뮬레이션과의 통합에 특히 적합하다. 본 논문에서는 NeRF의 사진 수준의 렌더링 품질과 GS의 편집 가능하고 구조적인 표현 방식을 결합한 하이브리드 모델인 GENIE(Gaussian Encoding for Neural Radiance Fields Interactive Editing)를 제안한다. 기존의 시리컬 하모닉스(Spherical Harmonics)를 이용한 외관 모델링 대신, 각 가우시안 원소에 훈련 가능한 특징 임베딩을 부여한다. 이 임베딩은 각 쿼리 포인트 주변의 k개 근접 가우시안 원소를 기반으로 NeRF 네트워크를 조건화하는 데 사용된다. 조건화를 효율적으로 수행하기 위해, 수정된 레이 트레이싱 파이프라인을 기반으로 한 빠른 근접 가우시안 탐색 기법인 Ray-Traced Gaussian Proximity Search(RT-GPS)를 도입한다. 또한, 다중 해상도 해시 그리드를 활용하여 가우시안 특징를 초기화하고 업데이트한다. 이러한 구성 요소들을 통합함으로써, 실시간이며 국소성 인식이 가능한 편집 기능을 구현할 수 있다. 즉, 가우시안 원소의 위치나 속성이 변경될 때, 그 영향이 보간되어 즉각적으로 렌더링 결과에 반영된다. 은닉적 표현과 명시적 표현의 장점을 결합함으로써 GENIE는 직관적인 장면 조작, 동적 상호작용, 물리 시뮬레이션과의 호환성을 지원하며, 기하학 기반 편집과 신경망 기반 렌더링 사이의 격차를 좁힌다. 코드는 다음 링크에서 확인할 수 있다: (https://github.com/MikolajZielinski/genie)