2일 전

SceneGen: 한 번의 순방향 전파를 통한 단일 이미지 3D 장면 생성

Yanxu Meng, Haoning Wu, Ya Zhang, Weidi Xie
SceneGen: 한 번의 순방향 전파를 통한 단일 이미지 3D 장면 생성
초록

최근 가상현실(VR)/증강현실(AR) 및 몸을 가진 인공지능(embodied AI) 분야에서의 응용 가능성으로 인해 3차원(3D) 콘텐츠 생성이 큰 연구 관심을 끌고 있다. 본 연구에서는 단일 장면 이미지 내에서 다수의 3D 자산을 동시에 합성하는 도전적인 과제에 초점을 맞춘다. 구체적으로, 본 연구의 기여는 네 가지로 요약된다. (i) 장면 이미지와 해당 객체 마스크를 입력으로 받아, 기하학적 구조와 질감을 동시에 생성하는 새로운 프레임워크인 SceneGen을 제안한다. 특히, SceneGen은 최적화나 자산 검색 과정 없이도 작동할 수 있다. (ii) 시각적 및 기하학적 인코더로부터 추출된 국소적 및 전역적 장면 정보를 특징 추출 모듈 내에서 융합하는 새로운 특징 집계 모듈을 도입한다. 이 모듈은 위치 예측 헤드와 결합되어, 단일 전방전파(foreward pass)를 통해 3D 자산과 그 상대적 공간 위치를 동시에 생성할 수 있도록 한다. (iii) SceneGen이 다중 이미지 입력 환경으로 직접 확장 가능함을 입증한다. 단일 이미지 입력만으로 훈련되었음에도 불구하고, 본 연구의 아키텍처 설계는 다중 이미지 입력 시 더 우수한 생성 성능을 달성할 수 있도록 한다. (iv) 체계적인 정량적 및 정성적 평가를 통해 제안된 방법의 효율성과 강건한 생성 능력을 확인하였다. 본 연구의 접근 방식은 고품질 3차원 콘텐츠 생성을 위한 새로운 해결책을 제시하며, 이후 작업들에서의 실용적 응용 가능성을 높일 수 있을 것으로 기대된다. 코드 및 모델은 공개적으로 제공될 예정이며, 다음 주소에서 확인할 수 있다: https://mengmouxu.github.io/SceneGen.