HyperAIHyperAI

Command Palette

Search for a command to run...

MiDaS v3.1 -- Une zoo de modèles pour une estimation robuste de la profondeur relative monoculaire

Reiner Birkl Diana Wofk Matthias Müller

Résumé

Nous publions MiDaS v3.1 pour l'estimation de profondeur à partir d'une seule image, proposant une variété de nouveaux modèles fondés sur différentes architectures d'encodeurs. Cette mise à jour s'inscrit dans la continuité du succès des transformateurs en vision par ordinateur, où un large éventail de transformateurs pré-entraînés est désormais disponible. Nous explorons l'impact de l'utilisation des transformateurs vision les plus prometteurs comme encodeurs d'images sur la qualité de l'estimation de profondeur et les performances en temps réel de l'architecture MiDaS. Notre étude inclut également des approches récentes basées sur des réseaux de convolution qui atteignent une qualité comparable aux transformateurs vision dans les tâches de classification d'images. Alors que la version précédente, MiDaS v3.0, se contentait d'utiliser le transformateur vision classique ViT, MiDaS v3.1 introduit des modèles supplémentaires basés sur BEiT, Swin, SwinV2, Next-ViT et LeViT. Ces modèles offrent différents compromis entre performance et temps d'exécution. Le meilleur modèle améliore la qualité de l'estimation de profondeur de 28 %, tandis que les modèles efficaces permettent des applications en aval nécessitant des débits d'images élevés. Nous décrivons également le processus général d'intégration de nouveaux encodeurs. Une vidéo résumant ce travail est disponible à l'adresse https://youtu.be/UjaeNNFf9sE, et le code source est accessible sur https://github.com/isl-org/MiDaS.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp
MiDaS v3.1 -- Une zoo de modèles pour une estimation robuste de la profondeur relative monoculaire | Articles | HyperAI