ViT-CoMer : Vision Transformer avec interaction multi-échelle par convolution pour des prédictions denses

Bien que le Vision Transformer (ViT) ait connu un succès significatif en vision par ordinateur, ses performances restent insuffisantes dans les tâches de prédiction dense en raison du manque d’interactions entre patches internes et de la diversité limitée des échelles de caractéristiques. La plupart des travaux existants visent à concevoir des transformers spécifiques à la vision afin de résoudre ces problèmes, ce qui entraîne des coûts supplémentaires liés au pré-entraînement. Ainsi, nous proposons un noyau ViT simple, sans pré-entraînement et enrichi en caractéristiques, intitulé ViT-CoMer, qui intègre une interaction multi-échelle par convolution. Ce modèle favorise une interaction bidirectionnelle entre les réseaux de convolution (CNN) et les transformateurs. Par rapport aux méthodes les plus avancées, ViT-CoMer présente les avantages suivants : (1) Nous intégrons des caractéristiques convolutives à champ réceptif pyramidal spatial dans l’architecture ViT, ce qui atténue efficacement les problèmes liés à l’interaction locale limitée et à la représentation unique des caractéristiques du ViT. (2) Nous proposons un module simple et efficace d’interaction bidirectionnelle entre CNN et Transformer, permettant une fusion multi-échelle sur des caractéristiques hiérarchiques, ce qui est particulièrement avantageux pour les tâches de prédiction dense. (3) Nous évaluons les performances de ViT-CoMer sur diverses tâches de prédiction dense, dans différents cadres et avec plusieurs pré-entraînements avancés. Notamment, ViT-CoMer-L atteint 64,3 % de AP sur COCO val2017 sans données d’entraînement supplémentaires, et 62,1 % de mIoU sur ADE20K val, des résultats comparables aux meilleures méthodes actuelles. Nous espérons que ViT-CoMer pourra servir de nouveau noyau pour les tâches de prédiction dense, afin de stimuler les recherches futures. Le code sera publié à l’adresse suivante : https://github.com/Traffic-X/ViT-CoMer.