모든 픽셀이 중요하다: 통합적인 3D 운동 이해를 통한 비지도 기하학 학습

최근, 딥 컨볼루션 네트워크를 통해 라벨이 부착되지 않은 비디오를 보면서 단일 이미지에서 3차원 기하학을 추정하는 연구가 큰 진전을 이룩하였습니다. 현재 최신 기술(SOTA) 방법들은 주로 강체 구조-운동(rigid structure-from-motion) 학습 프레임워크에 기반하여, 기하학 추정을 위해 3차원 카메라 자기 운동(ego motion)만 모델링합니다. 그러나 많은 비디오에는 이동하는 물체도 존재합니다. 예를 들어, 거리 장면에서 움직이는 자동차들이 있습니다.본 논문에서는 이러한 움직임을 다루기 위해 픽셀별 3차원 객체 운동(per-pixel 3D object motion)을 학습 프레임워크에 추가적으로 통합하였습니다. 이를 통해 전체적인 3차원 시나리오 흐름(scene flow) 이해를 제공하고 단일 이미지 기하학 추정을 돕습니다. 구체적으로, 비디오에서 연속된 두 프레임이 주어질 때, 우리는 모션 네트워크(motion network)를 사용하여 그들의 상대적인 3차원 카메라 포즈와 움직이는 객체와 강체 배경을 구분하는 분할 마스크(segmentation mask)를 예측합니다. 광학 흐름(optical flow) 네트워크는 밀집한 2차원 픽셀별 대응(dense 2D per-pixel correspondence)을 추정하기 위해 사용됩니다. 단일 이미지 깊이(depth) 네트워크는 두 이미지 모두의 깊이 맵(depth map)을 예측합니다.이 네 가지 유형의 정보, 즉 2D 흐름(flow), 카메라 포즈(pose), 분할 마스크(mask), 그리고 깊이 맵(map)은 미분 가능한 전체적 3차원 운동 해석기(differentiable holistic 3D motion parser, HMP)에 통합됩니다. 여기서 강체 배경과 움직이는 객체의 픽셀별 3차원 운동(per-pixel 3D motion)이 복구됩니다. 우리는 두 유형의 3차원 운동에 대한 다양한 손실(losses) 함수를 설계하여 깊이와 모션 네트워크를 학습시키고, 이를 통해 추정된 기하학의 오류가 더욱 줄어들도록 하였습니다.마지막으로, 단일 시점(monocular) 비디오에서 발생하는 3차원 운동 혼란(motion confusion) 문제를 해결하기 위해 스테레오 이미지를 결합하여 공동 학습(joint training)을 수행하였습니다. KITTI 2015 데이터셋에서 수행한 실험 결과, 우리의 추정된 기하학, 3차원 운동 및 움직이는 객체 마스크는 일관성을 유지하면서도 다른 최신 알고리즘(SOTA algorithms)보다 크게 우수한 성능을 보였습니다. 이는 우리의 접근 방식의 이점을 입증하고 있습니다.