
초록
단일 RGB 입력 이미지로부터 고해상도의 밀도 깊이 맵을 추정하는 문제를 다룹니다. 우리는 기준이 되는 인코더-디코더 구조의 합성곱 신경망 아키텍처를 기반으로 하여, 정보의 전역 처리가 전체 깊이 추정 성능을 어떻게 향상시킬 수 있는지에 대한 질문을 제기합니다. 이를 위해 각 이미지마다 적응적으로 중심 값을 추정하는 깊이 범위의 박스(bin)로 나누는 트랜스포머 기반 아키텍처 블록을 제안합니다. 최종 깊이 값은 이 박스 중심 값들의 선형 조합으로 추정됩니다. 본 연구에서 제안하는 새로운 빌딩 블록을 AdaBins이라 명명합니다. 실험 결과, 여러 인기 있는 깊이 데이터셋에서 모든 평가 지표에서 기존 최고 성능 모델 대비 결정적인 성능 향상을 보였습니다. 또한, 제안한 블록의 효과를 검증하기 위해 아블레이션 스터디를 수행하였으며, 새로운 최고 성능 모델의 코드와 사전 학습된 가중치를 공개합니다.