Command Palette
Search for a command to run...
Transformateur de vision en pyramide agrégée : stratégie Split-transform-merge pour la reconnaissance d’image sans convolution
Transformateur de vision en pyramide agrégée : stratégie Split-transform-merge pour la reconnaissance d’image sans convolution
Rui-Yang Ju Ting-Yu Lin Jen-Shiun Chiang Jia-Hao Jian Yu-Shian Lin Liu-Rui-Yi Huang
Résumé
Grâce aux succès du modèle Transformer dans le domaine du traitement du langage naturel, les mécanismes d’encodeur-décodage et d’attention ont été adoptés dans le domaine de la vision par ordinateur. Récemment, dans diverses tâches de vision par ordinateur (classification d’images, détection d’objets, segmentation sémantique, etc.), les réseaux neuronaux convolutifs d’état de l’art ont intégré certaines idées issues du Transformer, ce qui démontre un fort potentiel pour le Transformer dans le domaine de la reconnaissance d’images. À la suite de la proposition du Vision Transformer, un nombre croissant de travaux ont commencé à utiliser l’attention auto-attentive afin de remplacer entièrement les couches convolutives. Ce travail s’appuie sur le Vision Transformer, en combinant une architecture pyramide et en introduisant une stratégie Split-transform-merge pour proposer un nouvel encodeur groupé, dont l’architecture réseau porte le nom d’Aggregated Pyramid Vision Transformer (APVT). Nous avons mené des expériences de classification d’images sur le jeu de données CIFAR-10 et des tâches de détection d’objets sur le jeu de données COCO 2017. Comparé à d’autres architectures réseau utilisant le Transformer comme squelette, APVT obtient de très bons résultats tout en réduisant le coût computationnel. Nous espérons que cette stratégie améliorée pourra servir de référence pour les recherches futures sur le Transformer dans le domaine de la vision par ordinateur.