17일 전
GAUDI: 몰입형 3D 장면 생성을 위한 신경망 아키텍처
Miguel Angel Bautista, Pengsheng Guo, Samira Abnar, Walter Talbott, Alexander Toshev, Zhuoyuan Chen, Laurent Dinh, Shuangfei Zhai, Hanlin Goh, Daniel Ulbricht, Afshin Dehghan, Josh Susskind

초록
우리는 움직이는 카메라에서 몰입감 있게 렌더링할 수 있는 복잡하고 현실적인 3D 장면의 분포를 포착할 수 있는 생성 모델 GAUDI를 소개한다. 이 도전적인 문제에 대해 확장 가능하면서도 강력한 접근 방식을 제안한다. 먼저, 광선장(radiance fields)과 카메라 자세(camera poses)를 분리하는 잠재 표현(latent representation)을 최적화한 후, 이를 바탕으로 무조건적(unconditional) 및 조건부(conditional) 3D 장면 생성이 가능한 생성 모델을 학습한다. 기존의 단일 객체에 집중한 기존 연구들과 달리, GAUDI는 카메라 자세 분포가 샘플 간에 공유될 수 있다는 가정을 제거함으로써 보다 일반화된 모델링을 가능하게 한다. 실험을 통해 GAUDI가 다양한 데이터셋에서 무조건적 생성 설정에서 최신 기준(SOTA) 성능을 달성함을 보이며, 희소 이미지 관측값이나 장면을 설명하는 텍스트와 같은 조건 변수를 기반으로 3D 장면의 조건부 생성도 가능함을 입증한다.