16일 전
MonoViT: 비전 트랜스포머를 활용한 자기지도 학습 단안 깊이 추정
Chaoqiang Zhao, Youmin Zhang, Matteo Poggi, Fabio Tosi, Xianda Guo, Zheng Zhu, Guan Huang, Yang Tang, Stefano Mattoccia

초록
자기지도형 단안 깊이 추정은 학습에 어려운 깊이 레이블이 필요하지 않은 매력적인 해결책이다. 최근 컨볼루션 신경망(CNN)은 이 과제에서 큰 성과를 거두었다. 그러나 CNN의 수용 영역이 제한되어 있어 기존의 네트워크 아키텍처는 국소적인 정보만을 고려하게 되어, 자기지도 학습 방식의 효과를 제한한다. 최근 비전 트랜스포머(ViT) 모델의 성공을 바탕으로, 본 연구에서는 ViT 모델이 제공하는 전역적 추론 능력과 자기지도형 단안 깊이 추정의 유연성을 결합한 새로운 프레임워크인 MonoViT을 제안한다. 단순한 컨볼루션과 트랜스포머 블록을 결합함으로써, 본 모델은 국소적 및 전역적 추론 모두를 가능하게 하여 더 높은 수준의 세부성과 정확도를 갖는 깊이 예측을 가능하게 하며, 기존의 KITTI 데이터셋에서 최신 기준(SOTA) 성능을 달성한다. 더불어 MonoViT은 Make3D 및 DrivingStereo와 같은 다른 데이터셋에서도 뛰어난 일반화 능력을 입증하였다.