HyperAIHyperAI

Command Palette

Search for a command to run...

ViT-CoMer : Vision Transformer avec interaction multi-échelle par convolution pour des prédictions denses

Yifeng Shi† Xin Hao∗ Feng Lv∗ Xinliang Wang∗ Chunlong Xia*

Résumé

Bien que le Vision Transformer (ViT) ait connu un succès significatif en vision par ordinateur, ses performances restent insuffisantes dans les tâches de prédiction dense en raison du manque d’interactions entre patches internes et de la diversité limitée des échelles de caractéristiques. La plupart des travaux existants visent à concevoir des transformers spécifiques à la vision afin de résoudre ces problèmes, ce qui entraîne des coûts supplémentaires liés au pré-entraînement. Ainsi, nous proposons un noyau ViT simple, sans pré-entraînement et enrichi en caractéristiques, intitulé ViT-CoMer, qui intègre une interaction multi-échelle par convolution. Ce modèle favorise une interaction bidirectionnelle entre les réseaux de convolution (CNN) et les transformateurs. Par rapport aux méthodes les plus avancées, ViT-CoMer présente les avantages suivants : (1) Nous intégrons des caractéristiques convolutives à champ réceptif pyramidal spatial dans l’architecture ViT, ce qui atténue efficacement les problèmes liés à l’interaction locale limitée et à la représentation unique des caractéristiques du ViT. (2) Nous proposons un module simple et efficace d’interaction bidirectionnelle entre CNN et Transformer, permettant une fusion multi-échelle sur des caractéristiques hiérarchiques, ce qui est particulièrement avantageux pour les tâches de prédiction dense. (3) Nous évaluons les performances de ViT-CoMer sur diverses tâches de prédiction dense, dans différents cadres et avec plusieurs pré-entraînements avancés. Notamment, ViT-CoMer-L atteint 64,3 % de AP sur COCO val2017 sans données d’entraînement supplémentaires, et 62,1 % de mIoU sur ADE20K val, des résultats comparables aux meilleures méthodes actuelles. Nous espérons que ViT-CoMer pourra servir de nouveau noyau pour les tâches de prédiction dense, afin de stimuler les recherches futures. Le code sera publié à l’adresse suivante : https://github.com/Traffic-X/ViT-CoMer.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp