Command Palette
Search for a command to run...
CrossViT : Transformer Multispectre à Attention Croisée pour la Classification d'Images
CrossViT : Transformer Multispectre à Attention Croisée pour la Classification d'Images
Chun-Fu Chen Quanfu Fan Rameswar Panda
Résumé
Le vision transformer (ViT) récemment développé a obtenu des résultats prometteurs en classification d'images par rapport aux réseaux de neurones convolutifs. Inspirés par ces avancées, nous étudions dans cet article comment apprendre des représentations de caractéristiques multi-échelles dans les modèles transformer pour la classification d'images. À cette fin, nous proposons un transformer à double branche qui combine des patches d'image (c’est-à-dire des tokens dans un transformer) de tailles différentes afin de produire des caractéristiques d'image plus puissantes. Notre approche traite les tokens de petits patches et de grands patches à l’aide de deux branches distinctes, chacune ayant une complexité computationnelle différente, puis fusionne ces tokens exclusivement par attention multiple fois afin de s’compléter mutuellement. En outre, pour réduire la charge computationnelle, nous avons conçu un module de fusion de tokens simple mais efficace basé sur l’attention croisée, qui utilise un seul token par branche comme requête pour échanger des informations avec l’autre branche. L’attention croisée proposée nécessite uniquement une complexité linéaire en temps et en mémoire, contrairement à la complexité quadratique habituelle. Des expériences étendues montrent que notre méthode surpasser ou égale plusieurs travaux concurrents sur les vision transformers, tout en restant compétitive par rapport aux modèles CNN efficaces. Par exemple, sur le jeu de données ImageNet1K, avec quelques ajustements architecturaux, notre approche dépasse significativement le DeiT récent de 2 % tout en augmentant modérément les FLOPs et le nombre de paramètres. Nos codes sources et modèles sont disponibles à l’adresse suivante : \url{https://github.com/IBM/CrossViT}.