
3D 도시 생성은 인간이 도시 환경에서 구조적 왜곡에 더 민감하기 때문에 바람직하지만 도전적인 과제이다. 또한, 자연 장면에서와 달리 같은 클래스에 속하는 건물들은 보다 다양한 외형을 보이기 때문에, 3D 도시 생성은 3D 자연 장면 생성보다 더 복잡하다. 이러한 과제를 해결하기 위해 우리는 무한한 3D 도시를 위한 구성형 생성 모델인 CityDreamer을 제안한다. 본 연구의 핵심 통찰은 3D 도시 생성이 서로 다른 종류의 신경 필드의 조합이어야 한다는 점이다. 즉, 1) 다양한 건물 인스턴스와 2) 도로나 녹지와 같은 배경 스태프(background stuff)이다. 구체적으로, 조망각 시나리오 표현 방식(鳥瞰圖 시나리오 표현)을 채택하고, 인스턴스 중심 및 스태프 중심 신경 필드 모두에 볼륨 렌더링 기법을 적용한다. 생성을 위한 해시 그리드(generative hash grid)와 주기적 위치 임베딩(periodic positional embedding)은 건물 인스턴스와 배경 스태프의 특성에 맞게 특화된 시나리오 파라미터화(scene parameterization)로 활용된다. 더불어, 도시 레이아웃과 외관 측면에서 생성된 3D 도시의 사실성 향상을 위해 대규모 실세계 도시 영상 데이터를 포함하는 CityGen 데이터셋(OpenStreetMap 및 Google Earth 기반)을 제작하였다. CityDreamer는 실감 나는 3D 도시 생성뿐 아니라 생성된 도시 내에서 국지적 편집(localized editing)에도 최첨단 성능을 달성하였다.