모든 픽셀이 중요하다++: 3D 통합 이해를 통한 기하학과 운동의 공동 학습

최근, 딥 컨볼루션 네트워크를 통해 라벨이 부착되지 않은 비디오를 관찰하여 단일 프레임에서 3D 기하학을 추정하고 연속 프레임에서 광학 흐름을 추출하는 연구가 큰 진전을 이룩하였습니다. 현재 최신 방법들은 이 두 가지 작업을 독립적으로 처리합니다. 기존의 깊이 추정 방법들 중 하나의 일반적인 가정은 장면에 독립적으로 움직이는 물체가 없다는 것입니다. 그러나 광학 흐름을 사용하면 물체의 움직임을 쉽게 모델링할 수 있습니다. 본 논문에서는 이 두 가지 작업을 통합하여 처리하는 방안, 즉 픽셀별 3D 기하학과 운동을 동시에 이해하는 방법을 제안합니다. 이를 통해 정적 장면 가정의 필요성을 제거하고 학습 과정에서 내재된 기하학적 일관성을 강제함으로써 두 작업 모두에서 크게 개선된 결과를 얻을 수 있습니다. 우리는 이 방법을 "Every Pixel Counts++" 또는 "EPC++"이라고 명명하였습니다.구체적으로, 학습 과정에서 비디오의 두 연속 프레임이 주어질 때, 카메라 운동(MotionNet), 밀도 깊이 맵(DepthNet), 그리고 두 프레임 간의 픽셀별 광학 흐름(OptFlowNet)을 예측하기 위해 세 개의 병렬 네트워크를 채택하였습니다. 이 세 가지 유형의 정보는 전체적인 3D 운동 분석기(HMP)로 전달되며, 강성 배경과 움직이는 물체의 픽셀별 3D 운동이 분리되고 복원됩니다.다양한 장면을 포함하는 데이터셋(KITTI 2012 및 KITTI 2015 데이터셋, Make3D, MPI Sintel 데이터셋)에서 포괄적인 실험을 수행하였으며, 깊이 추정, 광학 흐름 추정, 오도메트리, 움직이는 물체 분할 및 시나리오 흐름 추정 등 다섯 가지 작업에 대한 성능은 우리의 접근법이 다른 최신 방법들을 능가함을 보여주었습니다. 코드는 다음 주소에서 제공될 예정입니다: https://github.com/chenxuluo/EPC.