TransDSSL : Estimation de profondeur basée sur Transformer par apprentissage auto-supervisé
Récemment, les transformateurs ont été largement adoptés pour diverses tâches en vision par ordinateur, montrant des résultats prometteurs grâce à leur capacité à modéliser efficacement les dépendances spatiales à longue portée au sein d'une image. Toutefois, très peu d’études se sont concentrées sur l’application des transformateurs à l’estimation de profondeur en apprentissage auto-supervisé. Lorsqu’on remplace l’architecture CNN par un transformateur dans le cadre de l’apprentissage auto-supervisé de la profondeur, plusieurs problèmes émergent, notamment une fonction de perte photométrique multi-échelle instable lorsqu’elle est utilisée avec les transformateurs, ainsi qu’une capacité insuffisante à capturer les détails locaux. Dans cet article, nous proposons un module décodeur basé sur l’attention, appelé Pixel-Wise Skip Attention (PWSA), destiné à améliorer la précision des détails fins dans les cartes de caractéristiques tout en préservant le contexte global fourni par les transformateurs. En outre, nous introduisons l’utilisation d’une perte de self-distillation combinée à une perte photométrique à une seule échelle, afin de stabiliser l’entraînement des transformateurs en fournissant des signaux d’entraînement plus fiables. Nous démontrons que le modèle proposé permet des prédictions précises sur des objets de grande taille et des structures fines, qui nécessitent à la fois un contexte global et des détails locaux. Notre méthode atteint un niveau d’performance optimal parmi les approches auto-supervisées d’estimation de profondeur monoscopique sur les benchmarks KITTI et DDAD.