MonoViT : Estimation auto-supervisée de la profondeur monoculaire à l’aide d’un Vision Transformer

L’estimation de profondeur monoscopique auto-supervisée constitue une solution attrayante ne nécessitant pas d’étiquettes de profondeur difficiles à obtenir pour l’entraînement. Les réseaux de neurones à convolution (CNN) ont récemment remporté un grand succès dans cette tâche. Toutefois, leur champ réceptif limité contraint les architectures existantes à raisonner uniquement localement, ce qui affaiblit l’efficacité du paradigme auto-supervisé. À la lumière des récents succès des Vision Transformers (ViT), nous proposons MonoViT, un cadre entièrement nouveau qui combine le raisonnement global permis par les modèles ViT avec la flexibilité de l’estimation de profondeur monoscopique auto-supervisée. En combinant des convolutions simples avec des blocs Transformer, notre modèle est capable de raisonner à la fois localement et globalement, permettant ainsi des prédictions de profondeur avec un niveau de détail et une précision supérieurs. MonoViT atteint ainsi des performances de pointe sur le jeu de données établi KITTI. En outre, MonoViT démontre ses capacités supérieures de généralisation sur d'autres jeux de données, tels que Make3D et DrivingStereo.