Transformers de vision pour les prédictions denses

Nous introduisons les vision transformers denses, une architecture qui remplace les réseaux de convolution par des transformateurs visuels comme squelette pour des tâches de prédiction dense. Nous regroupons des tokens issus de différentes étapes du transformateur visuel afin de former des représentations ressemblant à des images à différentes résolutions, puis combinons progressivement ces représentations à l’aide d’un décodeur convolutif pour obtenir des prédictions à résolution complète. Le squelette basé sur les transformateurs traite les représentations à une résolution constante et relativement élevée, tout en disposant à chaque étape d’un champ réceptif global. Ces propriétés permettent aux vision transformers denses de produire des prédictions plus fines et plus cohérentes globalement par rapport aux réseaux entièrement convolutifs. Nos expériences montrent que cette architecture apporte des améliorations significatives sur les tâches de prédiction dense, en particulier lorsque de grandes quantités de données d’entraînement sont disponibles. Pour l’estimation de profondeur monoscopique, nous observons une amélioration allant jusqu’à 28 % en performance relative par rapport à un réseau convolutif d’état de l’art. Lorsqu’elle est appliquée à la segmentation sémantique, l’architecture atteint un nouveau record sur ADE20K avec un mIoU de 49,02 %. Nous montrons également qu’elle peut être affinée sur des jeux de données plus petits comme NYUv2, KITTI et Pascal Context, où elle établit également de nouveaux records. Nos modèles sont disponibles à l’adresse suivante : https://github.com/intel-isl/DPT.