
자기지도형 단안 깊이 추정은 자율주행 및 로보틱스 분야에서 광범위한 응용 가능성을 지닌 주목받는 기술로 부상하고 있다. 최근의 여러 연구들은 자기 쿼리 레이어(Self Query Layer, SQL)와 같은 기법을 활용하여 운동 정보로부터 깊이를 추론하는 데 있어 상당한 진전을 이뤘지만, 자주 자세(포즈) 정보의 강화 가능성을 간과하고 있다. 본 논문에서는 깊이 추정 성능 향상을 위해 포즈 네트워크의 강화를 우선시하는 새로운 접근법인 SPIdepth를 제안한다. SQL 기반의 기존 방법에 기반하여, SPIdepth는 세밀한 장면 구조를 정확히 포착하는 데 있어 포즈 정보의 중요성을 강조한다. 포즈 네트워크의 능력을 향상시킴으로써, SPIdepth는 장면 이해 및 깊이 추정 측면에서 뛰어난 성과를 달성하였다. KITTI, Cityscapes, Make3D 등의 벤치마크 데이터셋에서 수행된 실험 결과는 SPIdepth가 기존 방법들을 크게 앞서는 최첨단 성능을 보임을 입증한다. 특히, SPIdepth는 자기지도형 KITTI 벤치마크에서 최고 성능을 기록하며, AbsRel(0.029), SqRel(0.069), RMSE(1.394)의 최저 수치를 기록하여 새로운 최고 기록을 수립하였다. Cityscapes에서는 운동 마스크(motion mask)를 사용하지 않아도 SQLdepth 대비 AbsRel 21.7%, SqRel 36.8%, RMSE 16.5%의 성능 향상을 보였다. Make3D에서는 제로샷(zero-shot) 환경에서도 모든 기존 모델을 능가하는 성능을 보였다. 특히, SPIdepth는 추론 시 단일 이미지만을 사용함에도 불구하고, 비디오 시퀀스를 활용하는 방법들조차도 능가하며, 실세계 응용에서의 효율성과 효과성을 입증하였다. 본 연구는 자기지도형 단안 깊이 추정 기술의 획기적인 발전을 나타내며, 실세계 응용에서 장면 이해를 향상시키기 위해 포즈 정보의 강화가 얼마나 중요한지를 강조한다. 코드 및 사전 훈련된 모델은 공개적으로 https://github.com/Lavreniuk/SPIdepth 에서 제공된다.