4달 전

구조 인식 잔차 피라미드 네트워크를 이용한 단일 카메라 깊이 추정

Xiaotian Chen; Xuejin Chen; Zheng-Jun Zha
구조 인식 잔차 피라미드 네트워크를 이용한 단일 카메라 깊이 추정
초록

단일 시점 깊이 추정은 장면 이해에 있어 필수적인 작업입니다. 복잡한 장면에서 물체와 배경의 내부 구조는 정확하고 시각적으로 만족스러운 깊이 맵을 복원하는 데 중요한 역할을 합니다. 전역 구조는 장면 레이아웃을 전달하며, 국소 구조는 형태 세부 사항을 반영합니다. 최근에 개발된 합성곱 신경망(CNNs) 기반 접근법은 깊이 추정의 성능을 크게 향상시켰습니다. 그러나 이들 중 대부분은 복잡한 장면에서의 다중 스케일 구조를 고려하지 않습니다. 본 논문에서는 정확한 깊이 예측을 위해 다중 스케일 구조를 활용하는 구조 인식 잔차 피라미드 네트워크(SARPN, Structure-Aware Residual Pyramid Network)를 제안합니다. 우리는 상위 레벨에서 전역 장면 구조를 표현하여 레이아웃을 나타내고, 하위 레벨에서 국소 구조를 표현하여 형태 세부 사항을 나타내는 잔차 피라미드 디코더(RPD, Residual Pyramid Decoder)를 제안합니다. 각 레벨에서 우리는 잔차 정교화 모듈(RRM, Residual Refinement Modules)을 제안하여 상위 레벨에서 예측된 거친 구조 위에 점진적으로 더 미세한 구조를 추가하도록 잔차 맵을 예측합니다. 다중 스케일 이미지 특징을 완전히 활용하기 위해, 모든 스케일에서 효과적인 특징을 적응적으로 융합하여 각 스케일의 구조를 추론하는 적응형 밀집 특징 융합(ADFF, Adaptive Dense Feature Fusion) 모듈이 도입되었습니다. NYU-Depth v2 데이터셋에서 수행된 실험 결과는 제안된 접근법이 정성적 및 정량적 평가 모두에서 최신 기술 수준의 성능을 달성함을 보여줍니다. 코드는 https://github.com/Xt-Chen/SARPN 에서 제공됩니다.