GLPanoDepth: 글로벌 투 로컬 패노라마 깊이 추정

본 논문에서는 단일 전방향 이미지(omnidirectional image)에서 장면의 밀도 높은 깊이 값을 예측하기 위한 학습 기반 방법을 제안한다. 전방향 이미지는 전체 시야각(full field-of-view)을 제공하여 일반적인 원근 투영 이미지보다 훨씬 더 완전한 장면 설명을 가능하게 한다. 그러나 현재 대부분의 솔루션에서 활용되는 완전 컨볼루셔널 네트워크는 패노라마 이미지에서 풍부한 전역적 맥락을 포착하지 못하는 한계가 있다. 또한 패노라마 이미지에 사용되는 등각도 투영(equirectangular projection)의 왜곡 문제도 존재한다. 이러한 문제를 해결하고, 패노라마 이미지로부터 왜곡 없는 전역적 특징을 추출하기 위해, 우리는 장거리 의존성(long-range dependencies)을 모델링하고 패노라마 이미지에서 왜곡 없이 전역적 특징을 추출할 수 있는 새로운 트랜스포머 기반 아키텍처인 큐브맵 비전 트랜스포머(Cubemap Vision Transformers, CViT)를 제안한다. 우리는 큐브맵 비전 트랜스포머가 각 단계에서 전역적 수용 영역(global receptive field)을 가지며, 구형 신호(spherical signals)에 대해 전역적으로 일관된 예측을 제공할 수 있음을 보여준다. 또한 중요한 국소적 특징을 유지하기 위해, 본 연구에서는 파이프라인 내에 컨볼루션 기반의 브랜치를 추가로 설계하였으며(이를 GLPanoDepth라 명명), 다양한 스케일에서 큐브맵 비전 트랜스포머로부터 추출한 전역적 특징을 융합한다. 이러한 전역에서 국소로의 전략(global-to-local strategy)을 통해 패노라마 이미지 내에 존재하는 유용한 전역 및 국소적 특징을 극대화할 수 있으며, 패노라마 깊이 추정 분야에서 최신 기준(SOTA) 성능을 달성한다.