
초록
단일 이미지로부터 깊이 추정을 위한 새로운 아키텍처를 제안한다. 이 아키텍처는 밀도 높은 회귀 작업의 시작점으로 자주 사용되는 유명한 인코더-디코더 아키텍처를 기반으로 한다. 우리는 AdaBins에 기반하여 입력 이미지에 대한 깊이 값의 전역 분포를 추정하는 기존 방식을 발전시켜 두 가지 방식으로 아키텍처를 개선하였다. 첫째, 전역 깊이 분포를 예측하는 대신, 각 픽셀에서 국소적 이웃 영역의 깊이 분포를 예측한다. 둘째, 디코더의 최종 단계에서만 깊이 분포를 예측하는 것이 아니라, 디코더의 모든 레이어에 걸쳐 깊이 분포를 예측한다. 이러한 새로운 아키텍처를 LocalBins라 명명한다. 실험 결과, NYU-Depth V2 데이터셋에서 모든 지표에서 최신 기술(SOTA)보다 명확한 성능 향상을 보였다. 코드와 사전 학습된 모델은 공개될 예정이다.