디코더 모듈레이션을 통한 실내 깊이 완성

심도 보완(depth completion)은 센서 측정값으로부터 밀도 높은 심도 맵을 복원하는 작업이다. 기존의 방법들은 대부분 실외 환경에서 LiDAR로부터 얻는 매우 희박한 심도 측정값에 특화되어 있으나, 실내 환경에서는 주로 시간 간격(Time-of-Flight, ToF) 또는 구조광(Structured Light) 센서가 사용된다. 이러한 센서들은 일부 영역에서는 밀도 높은 측정값을 제공하지만, 다른 영역은 거의 측정값이 없는 반밀도(semi-dense) 맵을 생성한다. 본 연구에서는 이러한 영역 간의 통계적 차이를 고려하는 새로운 모델을 제안한다. 주요 기여점은 인코더-디코더 아키텍처에 추가된 새로운 디코더 조절 브랜치이다. 인코더는 RGB 이미지와 원시 심도를 연결(concatenated)하여 특징을 추출한다. 결측값 마스크를 입력으로 받아, 제안한 조절 브랜치는 다양한 영역에 대해 동일한 특징에서 밀도 높은 심도 맵을 다르게 디코딩하도록 제어한다. 이는 공간적 적응형 정규화(Spatially-Adaptive Denormalization, SPADE) 블록을 활용하여 디코더 내부의 출력 신호 공간 분포를 조절함으로써 구현된다. 두 번째 기여점은 정밀한 밀도의 진실 심도 맵이 제공되지 않는 상황에서도 반밀도 센서 데이터를 기반으로 학습할 수 있는 새로운 학습 전략이다. 제안된 모델은 실내 환경을 위한 Matterport3D 데이터셋에서 최신 기술 수준의 성능을 달성하였다. 반밀도 입력 심도를 고려해 설계된 본 모델은 KITTI 데이터셋에서도 LiDAR 중심의 기존 접근법과 경쟁력을 갖추고 있다. NYUv2 데이터셋을 대상으로 한 검증 결과, 밀도 높은 진실값이 없을 때에도 제안한 학습 전략이 예측 정확도를 크게 향상시킨다는 점이 입증되었다.