HyperAIHyperAI

Command Palette

Search for a command to run...

CrossViT : Transformer Multispectre à Attention Croisée pour la Classification d'Images

Chun-Fu Chen Quanfu Fan Rameswar Panda

Résumé

Le vision transformer (ViT) récemment développé a obtenu des résultats prometteurs en classification d'images par rapport aux réseaux de neurones convolutifs. Inspirés par ces avancées, nous étudions dans cet article comment apprendre des représentations de caractéristiques multi-échelles dans les modèles transformer pour la classification d'images. À cette fin, nous proposons un transformer à double branche qui combine des patches d'image (c’est-à-dire des tokens dans un transformer) de tailles différentes afin de produire des caractéristiques d'image plus puissantes. Notre approche traite les tokens de petits patches et de grands patches à l’aide de deux branches distinctes, chacune ayant une complexité computationnelle différente, puis fusionne ces tokens exclusivement par attention multiple fois afin de s’compléter mutuellement. En outre, pour réduire la charge computationnelle, nous avons conçu un module de fusion de tokens simple mais efficace basé sur l’attention croisée, qui utilise un seul token par branche comme requête pour échanger des informations avec l’autre branche. L’attention croisée proposée nécessite uniquement une complexité linéaire en temps et en mémoire, contrairement à la complexité quadratique habituelle. Des expériences étendues montrent que notre méthode surpasser ou égale plusieurs travaux concurrents sur les vision transformers, tout en restant compétitive par rapport aux modèles CNN efficaces. Par exemple, sur le jeu de données ImageNet1K, avec quelques ajustements architecturaux, notre approche dépasse significativement le DeiT récent de 2 % tout en augmentant modérément les FLOPs et le nombre de paramètres. Nos codes sources et modèles sont disponibles à l’adresse suivante : \url{https://github.com/IBM/CrossViT}.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp
CrossViT : Transformer Multispectre à Attention Croisée pour la Classification d'Images | Articles | HyperAI