DCPI-Depth: 비지도 단안 깊이 추정에 밀도 높은 대응 사전 지식을 명시적으로 통합하기

최근 몇 년간 단일 영상(모노클러럴) 비디오로부터 비지도 학습 방식으로 깊이를 인지하는 데 대한 관심이 급증하고 있다. 이 분야에서 가장 중요한 과제 중 하나는, 특히 텍스처가 약한 영역이나 동적 물체가 존재하는 어려운 시나리오에서도 견고하고 정확한 깊이 추정을 달성하는 것이다. 본 연구는 밀도 높은 대응 관계 사전 지식(稠密 대응관계 사전)에 깊이 있게 접근함으로써 기존 프레임워크에 명시적인 기하학적 제약을 제공함으로써 세 가지 주요 기여를 한다. 첫 번째 기여는 맥락-기하학적 깊이 일관성 손실(loss)이다. 이 손실은 추정된 자가 운동(ego-motion) 기반으로 밀도 높은 대응 관계로부터 삼각화된 깊이 맵을 활용하여 맥락 정보로부터 깊이 인지 학습을 안내한다. 명시적으로 삼각화된 깊이 맵은 픽셀 간 상대적인 거리를 정확히 포착하기 때문이다. 두 번째 기여는 광학 흐름의 발산(divergence)과 깊이 기울기 사이에 명시적이고 추론 가능한 관계가 존재한다는 관찰에서 비롯된다. 이를 바탕으로 국소적 변동에 특별한 주목을 두어 깊이 추정을 정교화하는 미분적 성질 상관 손실(differential property correlation loss)이 설계되었다. 세 번째 기여는 정적 장면 가정 하에 강체 흐름(rigid flow)과 광학 흐름(optical flow) 간의 상호작용을 강화하기 위한 양방향 스트림 공조 전략(bidirectional stream co-adjustment strategy)이다. 이 전략은 강체 흐름의 대응 관계 정확도를 높이고, 다양한 시나리오에서 광학 흐름의 적응성을 향상시킨다. 본 연구에서 제안한 DCPI-Depth는 이러한 혁신적 구성 요소들을 모두 통합하고, 두 개의 양방향적이고 협력적인 스트림을 결합한 프레임워크로서, 여러 공개 데이터셋에서 최고 수준의 성능과 일반화 능력을 달성하며 기존 모든 기법들을 능가한다. 특히, 텍스처가 없는 영역과 동적 영역에서도 정확한 깊이 추정을 보이며, 더 자연스럽고 합리적인 매끄러움(smoothness)을 나타낸다. 본 연구의 소스 코드는 논문 게재 후 mias.group/DCPI-Depth에서 공개될 예정이다.