il y a 17 jours

Pyramid Vision Transformer : un squelette polyvalent pour les prédictions denses sans convolution

Wenhai Wang, Enze Xie, Xiang Li, Deng-Ping Fan, Kaitao Song, Ding Liang, Tong Lu, Ping Luo, Ling Shao

Résumé

Bien que l’utilisation de réseaux de neurones convolutifs (CNN) comme architectures de base ait permis des succès remarquables en vision par ordinateur, ce travail explore une architecture de base simple, utile pour de nombreuses tâches de prédiction dense sans recourir à des opérations de convolution. Contrairement au modèle Transformer récemment proposé (par exemple, ViT), spécifiquement conçu pour la classification d’images, nous proposons le Pyramid Vision Transformer (PVT), qui surmonte les difficultés liées à l’adaptation des Transformers à diverses tâches de prédiction dense. Le PVT présente plusieurs avantages par rapport aux approches antérieures. (1) Contrairement à ViT, qui produit généralement des sorties à faible résolution et nécessite des coûts computationnels et mémoire élevés, le PVT peut être entraîné sur des partitions d’image denses afin d’obtenir une haute résolution de sortie, ce qui est essentiel pour les tâches de prédiction dense, tout en utilisant une pyramide de réduction progressive pour réduire les coûts computationnels associés aux cartes de caractéristiques volumineuses. (2) Le PVT combine les avantages des CNN et des Transformers, offrant ainsi une architecture unifiée pour diverses tâches de vision, sans convolution, en remplaçant simplement les architectures CNN classiques. (3) Nous validons le PVT à travers des expériences approfondies, démontrant qu’il améliore significativement les performances de nombreuses tâches en aval, telles que la détection d’objets, la segmentation sémantique et la segmentation d’instances. Par exemple, avec un nombre de paramètres comparable, RetinaNet+PVT atteint 40,4 AP sur le jeu de données COCO, surpassant de 4,1 points d’AP absolus RetinaNet+ResNet50 (36,3 AP). Nous espérons que le PVT pourra servir de base alternative et utile pour les prédictions au niveau du pixel, et contribuer ainsi aux recherches futures. Le code est disponible à l’adresse suivante : https://github.com/whai362/PVT.