
단일 시점 깊이 추정은 장면 이해에 있어 필수적인 작업입니다. 복잡한 장면에서 물체와 배경의 내부 구조는 정확하고 시각적으로 만족스러운 깊이 맵을 복원하는 데 중요한 역할을 합니다. 전역 구조는 장면 레이아웃을 전달하며, 국소 구조는 형태 세부 사항을 반영합니다. 최근에 개발된 합성곱 신경망(CNNs) 기반 접근법은 깊이 추정의 성능을 크게 향상시켰습니다. 그러나 이들 중 대부분은 복잡한 장면에서의 다중 스케일 구조를 고려하지 않습니다. 본 논문에서는 정확한 깊이 예측을 위해 다중 스케일 구조를 활용하는 구조 인식 잔차 피라미드 네트워크(SARPN, Structure-Aware Residual Pyramid Network)를 제안합니다. 우리는 상위 레벨에서 전역 장면 구조를 표현하여 레이아웃을 나타내고, 하위 레벨에서 국소 구조를 표현하여 형태 세부 사항을 나타내는 잔차 피라미드 디코더(RPD, Residual Pyramid Decoder)를 제안합니다. 각 레벨에서 우리는 잔차 정교화 모듈(RRM, Residual Refinement Modules)을 제안하여 상위 레벨에서 예측된 거친 구조 위에 점진적으로 더 미세한 구조를 추가하도록 잔차 맵을 예측합니다. 다중 스케일 이미지 특징을 완전히 활용하기 위해, 모든 스케일에서 효과적인 특징을 적응적으로 융합하여 각 스케일의 구조를 추론하는 적응형 밀집 특징 융합(ADFF, Adaptive Dense Feature Fusion) 모듈이 도입되었습니다. NYU-Depth v2 데이터셋에서 수행된 실험 결과는 제안된 접근법이 정성적 및 정량적 평가 모두에서 최신 기술 수준의 성능을 달성함을 보여줍니다. 코드는 https://github.com/Xt-Chen/SARPN 에서 제공됩니다.