2달 전
SwinMTL: 단일 카메라 이미지에서 동시 깊이 추정 및 의미 분할을 위한 공유 아키텍처
Pardis Taghavi; Reza Langari; Gaurav Pandey

초록
이 연구 논문은 단일 카메라를 사용하여 동시 깊이 추정과 의미 분할을 수행할 수 있는 혁신적인 다중 작업 학습 프레임워크를 제시합니다. 제안된 접근 방식은 공유 인코더-디코더 구조를 기반으로 하며, 이 구조는 계산 효율성을 저해하지 않으면서 깊이 추정과 의미 분할 작업의 정확도를 향상시키기 위해 다양한 기술을 통합합니다. 또한, 논문에서는 모델의 예측을 개선하기 위해 Wasserstein GAN 프레임워크와 크리틱 네트워크를 활용한 적대적 학습 구성 요소를 포함합니다. 이 프레임워크는 실외 Cityscapes 데이터셋과 실내 NYU Depth V2 데이터셋에서 철저히 평가되었으며, 두 작업 모두 기존 최신 방법론보다 우수한 성능을 보였습니다. 우리는 또한 다양한 구성 요소들의 기여도를 분석하기 위한 축차적 연구(ablation studies)를 수행하여, 사전 학습 전략, 크리틱의 포함, 로그 스케일 깊이 변환(logarithmic depth scaling), 고급 이미지 증강 등의 영향력을 이해할 수 있도록 하였습니다. 관련 소스 코드는 \url{https://github.com/PardisTaghavi/SwinMTL}에서 확인 가능합니다.