HiMODE: 하이브리드 단안 광각 깊이 추정 모델

단안형 원형 심도 추정은 360° 주변 환경을 감지하는 데 광범위한 응용 가능성을 지녀 최근 많은 연구 주목을 받고 있다. 기존의 이 분야 접근법은 소형 객체의 세부 정보 복원에 한계를 가지며, 진정 심도 맵 획득 과정에서 데이터 손실 문제가 존재한다. 본 논문에서는 하이브리드 CNN+Transformer(인코더-디코더) 아키텍처를 기반으로 한 새로운 단안형 원형 심도 추정 모델인 HiMODE를 제안한다. 이 모델은 왜곡 완화와 계산 비용 절감을 효율적으로 수행하면서 성능 저하 없이 설계된 모듈을 갖추고 있다. 먼저, HNet 블록을 기반으로 한 특징 피라미드 네트워크를 설계하여 가장자리 근처에서 고해상도 특징을 추출한다. 또한, Transformer 인코더와 디코더에 각각 공간적/시간적 패치를 활용한 자기 및 교차 주의(attention) 레이어를 도입함으로써 성능을 더욱 향상시켰다. 더불어, 공간적 잔차 블록을 도입하여 파라미터 수를 감소시켰다. 입력 이미지의 각 백본 블록에서 추출된 깊은 특징과 Transformer 인코더-디코더가 예측한 원시 심도 맵을 함께 전달하여 컨텍스트 조정 레이어를 통과시킴으로써, 본 모델은 진정 심도 맵보다 더 우수한 시각적 품질을 갖는 결과 심도 맵을 생성할 수 있다. 체계적인 아블레이션 연구를 통해 각 모듈의 중요성을 입증하였다. 스탠포드3D, 매터포트3D, SunCG 세 가지 데이터셋에서 수행된 광범위한 실험 결과, HiMODE가 360° 단안형 심도 추정 분야에서 최고 수준의 성능을 달성함을 입증하였다.