11일 전

자기지도 단안 깊이 추정의 일반화에 대한 심층적 탐구

Jinwoo Bae, Sungho Moon, Sunghoon Im
자기지도 단안 깊이 추정의 일반화에 대한 심층적 탐구
초록

최근 들어 자기지도 단안 깊이 추정(Self-supervised monocular depth estimation)에 대한 연구가 활발히 진행되고 있다. 대부분의 기존 연구는 KITTI와 같은 벤치마크 데이터셋에서 성능 향상을 중심으로 진행되었지만, 일반화 성능에 대한 실험은 제한적이다. 본 논문에서는 단안 깊이 추정의 일반화 성능을 향상시키기 위해 백본 네트워크(CNN, Transformer, CNN-Transformer 하이브리드 모델 등)에 대해 체계적으로 조사한다. 먼저, 네트워크 학습 과정에서 한 번도 접한 적 없는 다양한 공개 데이터셋에서 최신 기술 모델들을 평가한다. 그 다음, 우리가 자체적으로 생성한 다양한 텍스처 이동( texture-shifted ) 데이터셋을 활용하여 텍스처 편향 및 형태 편향 표현의 영향을 분석한다. 분석 결과, Transformer 모델은 강한 형태 편향을 보이며, CNN은 강한 텍스처 편향을 나타낸다는 것을 관측하였다. 또한 형태 편향을 가진 모델이 텍스처 편향 모델보다 단안 깊이 추정에서 더 우수한 일반화 성능을 보임을 확인하였다. 이러한 관찰을 바탕으로, Transformer를 활용하여 형태 편향을 강화하면서도 다수준 표현을 적응적으로 융합함으로써 Transformer의 약한 국소성 편향을 보완하는 다중 수준 적응형 특징 융합 모듈을 갖춘 새로운 CNN-Transformer 하이브리드 네트워크인 MonoFormer을 제안한다. 광범위한 실험을 통해 제안된 방법이 다양한 공개 데이터셋에서 최신 기술 수준의 성능을 달성함과 동시에, 경쟁 기법들 중에서 가장 뛰어난 일반화 능력을 보임을 입증하였다.

자기지도 단안 깊이 추정의 일반화에 대한 심층적 탐구 | 최신 연구 논문 | HyperAI초신경