HyperAIHyperAI

Command Palette

Search for a command to run...

Transformateur de vision en pyramide agrégée : stratégie Split-transform-merge pour la reconnaissance d’image sans convolution

Rui-Yang Ju Ting-Yu Lin Jen-Shiun Chiang Jia-Hao Jian Yu-Shian Lin Liu-Rui-Yi Huang

Résumé

Grâce aux succès du modèle Transformer dans le domaine du traitement du langage naturel, les mécanismes d’encodeur-décodage et d’attention ont été adoptés dans le domaine de la vision par ordinateur. Récemment, dans diverses tâches de vision par ordinateur (classification d’images, détection d’objets, segmentation sémantique, etc.), les réseaux neuronaux convolutifs d’état de l’art ont intégré certaines idées issues du Transformer, ce qui démontre un fort potentiel pour le Transformer dans le domaine de la reconnaissance d’images. À la suite de la proposition du Vision Transformer, un nombre croissant de travaux ont commencé à utiliser l’attention auto-attentive afin de remplacer entièrement les couches convolutives. Ce travail s’appuie sur le Vision Transformer, en combinant une architecture pyramide et en introduisant une stratégie Split-transform-merge pour proposer un nouvel encodeur groupé, dont l’architecture réseau porte le nom d’Aggregated Pyramid Vision Transformer (APVT). Nous avons mené des expériences de classification d’images sur le jeu de données CIFAR-10 et des tâches de détection d’objets sur le jeu de données COCO 2017. Comparé à d’autres architectures réseau utilisant le Transformer comme squelette, APVT obtient de très bons résultats tout en réduisant le coût computationnel. Nous espérons que cette stratégie améliorée pourra servir de référence pour les recherches futures sur le Transformer dans le domaine de la vision par ordinateur.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp