
NeRF 기반 방법을 활용한 3D 도시 생성은 매력적인 생성 결과를 보여주지만, 계산 효율성이 낮다는 문제가 있다. 최근에는 객체 수준의 3D 생성에 있어 매우 효율적인 대안으로 3D 가우시안 스플래싱(3D-GS)이 등장하였다. 그러나 유한 규모의 3D 객체나 인간에서부터 무한 규모의 3D 도시로 3D-GS를 적용하는 것은 간단한 일이 아니다. 무한 규모의 3D 도시 생성은 수십억 개의 포인트를 확장해야 하는 요구로 인해 상당한 저장 공간 부담(메모리 초과 문제)을 수반하며, 10km² 규모의 도시 장면을 처리하기 위해 종종 수백 GB에 달하는 VRAM이 필요하다. 본 논문에서는 단일 전방향 전달(forward pass)을 통해 무한 규모의 3D 도시를 효율적으로 합성할 수 있도록 설계된 생성형 가우시안 스플래싱 프레임워크인 GaussianCity를 제안한다. 우리의 주요 통찰은 두 가지이다. 1) 고밀도 3D 장면 표현: 우리는 매우 컴팩트한 중간 표현 방식인 BEV-Point를 도입하여, 무한 규모 장면에서 VRAM 사용량의 증가가 일정하게 유지되도록 하여 무한 규모의 도시 생성을 가능하게 한다. 2) 공간 인지형 가우시안 속성 디코더: 구조적 및 맥락적 특성을 BEV 포인트에 통합하기 위해 Point Serializer를 활용한 공간 인지형 BEV-Point 디코더를 제안한다. 광범위한 실험을 통해 GaussianCity가 드론 뷰 및 거리 뷰 모두에서 최신 기술 수준의 3D 도시 생성 성능을 달성함을 입증하였다. 특히, CityDreamer 대비 성능이 뛰어나며, 처리 속도는 60배 향상되어 10.72 FPS(프레임/초)를 기록하는 동시에, 기존 방법의 0.18 FPS에 비해 극적인 성능 향상을 보였다.