2달 전
VoxFormer: 카메라 기반 3D 의미장면 완성용 희소 복셀 트랜스포머
Li, Yiming ; Yu, Zhiding ; Choy, Christopher ; Xiao, Chaowei ; Alvarez, Jose M. ; Fidler, Sanja ; Feng, Chen ; Anandkumar, Anima

초록
인간은 가려진 물체와 장면의 완전한 3D 기하학적 구조를 쉽게 상상할 수 있습니다. 이 매력적인 능력은 인식과 이해에 필수적입니다. 이러한 능력을 AI 시스템에 부여하기 위해, 우리는 2D 이미지에서만 완전한 3D 볼루메트릭 의미론을 출력할 수 있는 Transformer 기반의 의미론적 장면 완성 프레임워크인 VoxFormer를 제안합니다. 우리의 프레임워크는 두 단계 설계를 채택하여, 먼저 깊이 추정에서 보이는 및 점유된 보克斯 쿼리의 희소 집합을 시작으로 하며, 그 다음에는 희소 보克斯들로부터 밀도 높은 3D 보ックス들을 생성하는 밀도화 단계가 따릅니다. 이 설계의 핵심 아이디어는 2D 이미지 상의 시각적 특징들이 가려진 공간이나 비어있는 공간이 아닌 오직 보이는 장면 구조들에만 대응한다는 것입니다. 따라서, 보이는 구조들의 특징화와 예측부터 시작하는 것이 더 안정적입니다. 희소 쿼리 집합을 얻으면, 마스크된 오토인코더 설계를 적용하여 자기 주의 메커니즘을 통해 모든 보克斯로 정보를 전파합니다. SemanticKITTI 데이터셋에서 수행한 실험 결과, VoxFormer는 기하학적으로 20.0%, 의미론적으로 18.1% 개선되어 최신 기술을 크게 능가하며, 학습 중 GPU 메모리를 16GB 미만으로 줄였습니다. 우리의 코드는 https://github.com/NVlabs/VoxFormer에서 확인할 수 있습니다.