
이 연구에서는 무제한 3D 장면을 위한 비조건부 생성 모델인 SceneDreamer을 제안한다. 이 모델은 임의의 노이즈로부터 대규모 3D 지형을 합성할 수 있다. SceneDreamer의 프레임워크는 3D 레이블 없이 자연 상태의 2D 이미지 컬렉션만을 사용하여 학습된다. SceneDreamer의 핵심은 다음과 같은 세 가지 요소로 구성된 체계적인 학습 프레임워크이다: 1) 효율적이면서도 표현력이 풍부한 3D 장면 표현 방식, 2) 생성형 장면 매개변수화 기법, 3) 2D 이미지에서 얻은 지식을 효과적으로 활용할 수 있는 렌더러. 본 방법은 단순한 노이즈(simplex noise)로부터 생성된 효율적인 조망도(Bird's-eye-view, BEV) 표현을 기반으로 시작하며, 이는 표면 고도를 위한 높이 필드와 세부적인 장면 의미 정보를 위한 의미 필드를 포함한다. 이러한 BEV 장면 표현은 1) 3D 장면을 2차 복잡도로 표현할 수 있으며, 2) 기하학적 구조와 의미 정보를 분리할 수 있으며, 3) 효율적인 학습을 가능하게 한다는 장점을 갖는다. 또한, 3D 위치와 장면 의미 정보를 기반으로 잠재 공간을 매개변수화하기 위해 새로운 생성형 신경 해시 그리드(neural hash grid)를 제안한다. 이는 다양한 장면 간에 일반화 가능한 특징을 인코딩하는 것을 목표로 한다. 마지막으로, 적대적 학습을 통해 2D 이미지 컬렉션에서 학습된 신경 볼륨 렌더러를 활용하여 사실적인 사진 수준의 이미지를 생성한다. 광범위한 실험을 통해 SceneDreamer의 효과성과 최신 기술 대비 뛰어난 성능을 입증하였으며, 생동감 있고 다양한 무제한 3D 세계를 생성하는 데 있어 뛰어난 능력을 보였다.