il y a 16 jours

MiDaS v3.1 -- Une zoo de modèles pour une estimation robuste de la profondeur relative monoculaire

Reiner Birkl, Diana Wofk, Matthias Müller

Résumé

Nous publions MiDaS v3.1 pour l'estimation de profondeur à partir d'une seule image, proposant une variété de nouveaux modèles fondés sur différentes architectures d'encodeurs. Cette mise à jour s'inscrit dans la continuité du succès des transformateurs en vision par ordinateur, où un large éventail de transformateurs pré-entraînés est désormais disponible. Nous explorons l'impact de l'utilisation des transformateurs vision les plus prometteurs comme encodeurs d'images sur la qualité de l'estimation de profondeur et les performances en temps réel de l'architecture MiDaS. Notre étude inclut également des approches récentes basées sur des réseaux de convolution qui atteignent une qualité comparable aux transformateurs vision dans les tâches de classification d'images. Alors que la version précédente, MiDaS v3.0, se contentait d'utiliser le transformateur vision classique ViT, MiDaS v3.1 introduit des modèles supplémentaires basés sur BEiT, Swin, SwinV2, Next-ViT et LeViT. Ces modèles offrent différents compromis entre performance et temps d'exécution. Le meilleur modèle améliore la qualité de l'estimation de profondeur de 28 %, tandis que les modèles efficaces permettent des applications en aval nécessitant des débits d'images élevés. Nous décrivons également le processus général d'intégration de nouveaux encodeurs. Une vidéo résumant ce travail est disponible à l'adresse https://youtu.be/UjaeNNFf9sE, et le code source est accessible sur https://github.com/isl-org/MiDaS.