16일 전
동적 장면에서 인스턴스 인지형 투영 일관성에 의한 단안 깊이 학습
Seokju Lee, Sunghoon Im, Stephen Lin, In So Kweon

초록
우리는 감독 없이 단일 카메라 환경에서 다수의 동적 객체의 6-DoF 운동, 자가 운동(ego-motion), 그리고 깊이를 종단간(end-to-end)으로 공동 학습하는 프레임워크를 제안한다. 본 연구의 기술적 기여는 세 가지로 구성된다. 첫째, 각 강체 객체의 개별 운동을 모델링할 때 역방향 투영(inverse projection)과 전방향 투영(forward projection) 간의 근본적인 차이를 강조하고, 신경망 기반의 전방향 투영 모듈을 활용한 기하학적으로 정확한 투영 파이프라인을 제안한다. 둘째, 배경 및 객체 영역의 모든 영역에 대해 종합적인 자기지도 신호(self-supervisory signals)를 부여하는 통합적인 인스턴스 인식형 광학적 및 기하학적 일관성 손실(loss)을 설계한다. 셋째, 어떤 사전 존재하는 인스턴스 세그멘테이션 및 광학 흐름(optical flow) 모델을 사용하여 영상 인스턴스 세그멘테이션 맵을 자동으로 생성하는 일반적인 자동 레이블링 방식을 도입하며, 이를 본 학습 파이프라인의 입력으로 활용한다. 제안된 각 구성 요소는 철저한 아블레이션(Ablation) 연구를 통해 검증된다. KITTI 및 Cityscapes 데이터셋에서 수행된 광범위한 실험을 통해 본 프레임워크가 최신의 깊이 추정 및 운동 추정 기법들을 능가함을 입증한다. 본 연구의 코드, 데이터셋, 모델은 https://github.com/SeokjuLee/Insta-DM 에서 공개되어 있다.