HyperAIHyperAI

Command Palette

Search for a command to run...

MonoViT : Estimation auto-supervisée de la profondeur monoculaire à l’aide d’un Vision Transformer

Chaoqiang Zhao Youmin Zhang Matteo Poggi Fabio Tosi Xianda Guo Zheng Zhu Guan Huang Yang Tang Stefano Mattoccia

Résumé

L’estimation de profondeur monoscopique auto-supervisée constitue une solution attrayante ne nécessitant pas d’étiquettes de profondeur difficiles à obtenir pour l’entraînement. Les réseaux de neurones à convolution (CNN) ont récemment remporté un grand succès dans cette tâche. Toutefois, leur champ réceptif limité contraint les architectures existantes à raisonner uniquement localement, ce qui affaiblit l’efficacité du paradigme auto-supervisé. À la lumière des récents succès des Vision Transformers (ViT), nous proposons MonoViT, un cadre entièrement nouveau qui combine le raisonnement global permis par les modèles ViT avec la flexibilité de l’estimation de profondeur monoscopique auto-supervisée. En combinant des convolutions simples avec des blocs Transformer, notre modèle est capable de raisonner à la fois localement et globalement, permettant ainsi des prédictions de profondeur avec un niveau de détail et une précision supérieurs. MonoViT atteint ainsi des performances de pointe sur le jeu de données établi KITTI. En outre, MonoViT démontre ses capacités supérieures de généralisation sur d'autres jeux de données, tels que Make3D et DrivingStereo.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp