2달 전
다중 시점 압축 코딩을 이용한 3차원 재구성
Chao-Yuan Wu; Justin Johnson; Jitendra Malik; Christoph Feichtenhofer; Georgia Gkioxari

초록
시각 인식의 핵심 목표는 단일 이미지에서 객체와 장면을 이해하는 것입니다. 대규모 학습과 일반 목적 표현 덕분에 2D 인식은 엄청난 발전을 이루어냈습니다. 비교적으로 3D는 이미지에 나타나지 않은 가림 현상(occlusions)으로 인해 새로운 도전 과제를 제기합니다. 이전 연구들은 이러한 문제를 여러 시점에서 추론하거나 희소한 CAD 모델과 범주별 사전 지식에 의존하여 극복하려고 하였으나, 이는 새로운 환경으로의 확장성을 저해하였습니다. 본 연구에서는 자기 감독 학습의 발전에서 영감을 받은 일반화 가능한 표현을 학습하여 단일 시점 3D 재구성을 탐색합니다. 우리는 다양한 RGB-D 비디오로부터 범주와 무관하게 대규모로 학습할 수 있는 단일 객체 또는 전체 장면의 3D 점들을 처리하는 간단한 프레임워크를 소개합니다. 우리의 모델인 다중시점 압축 코딩(Multiview Compressive Coding, MCC)은 입력된 외관과 기하학적 구조를 압축하여 3D 구조를 예측하기 위해 3D 인식 디코더를 쿼리하는 방법을 학습합니다. MCC의 일반성과 효율성은 DALL$\cdot$E 2에서 상상한 새로운 객체나 iPhone으로 야외에서 캡처된 객체에서도 강력한 일반화 능력을 보여주며, 대규모 및 다양한 데이터 소스로부터 학습할 수 있게 합니다.