HyperAIHyperAI

Command Palette

Search for a command to run...

Pyramid Vision Transformer : un squelette polyvalent pour les prédictions denses sans convolution

Wenhai Wang Enze Xie Xiang Li Deng-Ping Fan Kaitao Song Ding Liang Tong Lu Ping Luo Ling Shao

Résumé

Bien que l’utilisation de réseaux de neurones convolutifs (CNN) comme architectures de base ait permis des succès remarquables en vision par ordinateur, ce travail explore une architecture de base simple, utile pour de nombreuses tâches de prédiction dense sans recourir à des opérations de convolution. Contrairement au modèle Transformer récemment proposé (par exemple, ViT), spécifiquement conçu pour la classification d’images, nous proposons le Pyramid Vision Transformer (PVT), qui surmonte les difficultés liées à l’adaptation des Transformers à diverses tâches de prédiction dense. Le PVT présente plusieurs avantages par rapport aux approches antérieures. (1) Contrairement à ViT, qui produit généralement des sorties à faible résolution et nécessite des coûts computationnels et mémoire élevés, le PVT peut être entraîné sur des partitions d’image denses afin d’obtenir une haute résolution de sortie, ce qui est essentiel pour les tâches de prédiction dense, tout en utilisant une pyramide de réduction progressive pour réduire les coûts computationnels associés aux cartes de caractéristiques volumineuses. (2) Le PVT combine les avantages des CNN et des Transformers, offrant ainsi une architecture unifiée pour diverses tâches de vision, sans convolution, en remplaçant simplement les architectures CNN classiques. (3) Nous validons le PVT à travers des expériences approfondies, démontrant qu’il améliore significativement les performances de nombreuses tâches en aval, telles que la détection d’objets, la segmentation sémantique et la segmentation d’instances. Par exemple, avec un nombre de paramètres comparable, RetinaNet+PVT atteint 40,4 AP sur le jeu de données COCO, surpassant de 4,1 points d’AP absolus RetinaNet+ResNet50 (36,3 AP). Nous espérons que le PVT pourra servir de base alternative et utile pour les prédictions au niveau du pixel, et contribuer ainsi aux recherches futures. Le code est disponible à l’adresse suivante : https://github.com/whai362/PVT.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp