VPNeXt -- Repenser le décodage dense pour les Vision Transformers classiques

Nous présentons VPNeXt, un nouveau modèle simple pour le Vision Transformer (ViT) sans architecture complexe. Contrairement à de nombreuses études antérieures qui partagent le même paradigme homogène, VPNeXt offre une perspective originale sur la représentation dense fondée sur le ViT. Plus précisément, le modèle proposé aborde deux préoccupations liées au paradigme existant : (1) Est-il réellement nécessaire d’utiliser une architecture de décodeur Transformer complexe pour obtenir de bonnes représentations ? (2) Le ViT simple a-t-il vraiment besoin de s’appuyer sur une caractéristique pyramidale artificielle pour l’upscaling ? Pour la première question, nous avons analysé les raisons sous-jacentes à l’efficacité du décodeur Transformer et avons introduit une nouvelle méthode, le Visual Context Replay (VCR), afin d’obtenir des résultats similaires de manière plus efficace. Pour la seconde, nous avons conçu le module ViTUp, qui exploite pleinement les caractéristiques pyramidales réelles du ViT, auparavant négligées, pour améliorer significativement les performances d’upscaling par rapport aux caractéristiques pyramidales artificielles utilisées précédemment. Ce travail constitue la première implémentation de cette fonctionnalité dans le domaine de la segmentation sémantique pour les modèles ViT simples. Nous avons mené des études d’ablation sur les modules clés pour valider progressivement leur efficacité. Des expériences comparatives et des visualisations ont été réalisées, démontrant que VPNeXt atteint des performances de pointe grâce à une conception simple et efficace. En outre, le modèle proposé dépasse largement la barrière établie depuis longtemps de mIoU sur le jeu de données VOC2012, établissant un nouveau record absolu avec une amélioration notable par rapport à toutes les méthodes antérieures depuis 2015.