11일 전

MiDaS v3.1 -- 안정적인 단일 카메라 상대 깊이 추정을 위한 모델 풀 请按照以上标准，使用韩语回答！！

Reiner Birkl, Diana Wofk, Matthias Müller

초록

단안 깊이 추정을 위한 MiDaS v3.1을 공개합니다. 이 버전은 다양한 인코더 백본을 기반으로 한 새로운 모델들을 제공하며, 컴퓨터 비전 분야에서 트랜스포머의 성공에 힘입어 현재 수많은 사전 훈련된 비전 트랜스포머 모델이 등장한 상황을 반영하고 있습니다. 본 연구에서는 가장 유망한 비전 트랜스포머를 이미지 인코더로 활용할 때 MiDaS 아키텍처의 깊이 추정 정확도와 실행 시간에 미치는 영향을 탐구합니다. 또한 이미지 분류 작업에서 비전 트랜스포머와 유사한 성능을 달성하는 최신 합성곱 기반 접근법들에 대해서도 함께 고려하였습니다. 이전 버전인 MiDaS v3.0은 순수한 비전 트랜스포머(ViT)만을 사용한 반면, MiDaS v3.1은 BEiT, Swin, SwinV2, Next-ViT, LeViT 등 다양한 백본 기반의 추가 모델을 제공하며, 각각 다른 성능-실행 시간 트레이드오프를 제공합니다. 최적의 모델은 깊이 추정 정확도를 28% 향상시켰으며, 효율적인 모델들은 고프레임레이트를 요구하는 하류 작업에 적합합니다. 또한 새로운 백본을 통합하는 일반적인 프로세스에 대해서도 설명합니다. 연구 내용을 요약한 영상은 https://youtu.be/UjaeNNFf9sE 에서 확인할 수 있으며, 코드는 https://github.com/isl-org/MiDaS 에 공개되어 있습니다.