16일 전

MonoViT: 비전 트랜스포머를 활용한 자기지도 학습 단안 깊이 추정

Chaoqiang Zhao, Youmin Zhang, Matteo Poggi, Fabio Tosi, Xianda Guo, Zheng Zhu, Guan Huang, Yang Tang, Stefano Mattoccia
MonoViT: 비전 트랜스포머를 활용한 자기지도 학습 단안 깊이 추정
초록

자기지도형 단안 깊이 추정은 학습에 어려운 깊이 레이블이 필요하지 않은 매력적인 해결책이다. 최근 컨볼루션 신경망(CNN)은 이 과제에서 큰 성과를 거두었다. 그러나 CNN의 수용 영역이 제한되어 있어 기존의 네트워크 아키텍처는 국소적인 정보만을 고려하게 되어, 자기지도 학습 방식의 효과를 제한한다. 최근 비전 트랜스포머(ViT) 모델의 성공을 바탕으로, 본 연구에서는 ViT 모델이 제공하는 전역적 추론 능력과 자기지도형 단안 깊이 추정의 유연성을 결합한 새로운 프레임워크인 MonoViT을 제안한다. 단순한 컨볼루션과 트랜스포머 블록을 결합함으로써, 본 모델은 국소적 및 전역적 추론 모두를 가능하게 하여 더 높은 수준의 세부성과 정확도를 갖는 깊이 예측을 가능하게 하며, 기존의 KITTI 데이터셋에서 최신 기준(SOTA) 성능을 달성한다. 더불어 MonoViT은 Make3D 및 DrivingStereo와 같은 다른 데이터셋에서도 뛰어난 일반화 능력을 입증하였다.

MonoViT: 비전 트랜스포머를 활용한 자기지도 학습 단안 깊이 추정 | 최신 연구 논문 | HyperAI초신경