HyperAIHyperAI
il y a 17 jours

TransNeXt : Perception visuelle foveale robuste pour les Vision Transformers

Dai Shi
TransNeXt : Perception visuelle foveale robuste pour les Vision Transformers
Résumé

En raison de l’effet de dégradation de profondeur dans les connexions résiduelles, de nombreux modèles efficaces de Vision Transformers fondés sur la superposition de couches pour l’échange d’informations échouent souvent à créer un mélange suffisant d’informations, conduisant à une perception visuelle artificielle. Pour remédier à ce problème, nous proposons dans cet article Aggregated Attention, un mécanisme de mélange de tokens inspiré des principes biomimétiques, qui simule la vision foveale biologique ainsi que les mouvements oculaires continus, tout en permettant à chaque token de la carte de caractéristiques d’acquérir une perception globale. En outre, nous introduisons des tokens apprenables qui interagissent avec les requêtes et les clés classiques, ce qui diversifie davantage la génération des matrices d’affinité au-delà de la simple similarité entre requêtes et clés. Notre approche ne repose pas sur la superposition pour l’échange d’informations, évitant ainsi efficacement la dégradation de profondeur et permettant une perception visuelle naturelle. Par ailleurs, nous proposons Convolutional GLU, un mécanisme de mélange de canaux qui comble le fossé entre le mécanisme GLU et celui de SE, permettant à chaque token de bénéficier d’une attention sur les canaux fondée sur ses caractéristiques d’image voisines les plus proches, renforçant ainsi la capacité de modélisation locale et la robustesse du modèle. En combinant Aggregated Attention et Convolutional GLU, nous concevons un nouvel arrière-plan visuel appelé TransNeXt. Des expériences étendues montrent que TransNeXt atteint des performances de pointe sur plusieurs tailles de modèle. À une résolution de $224^2$, TransNeXt-Tiny obtient une précision ImageNet de 84,0 %, dépassant ConvNeXt-B avec 69 % de paramètres en moins. TransNeXt-Base atteint une précision ImageNet de 86,2 % et une précision ImageNet-A de 61,6 % à une résolution de $384^2$, un mAP de détection d’objets COCO de 57,1, ainsi qu’un mIoU de segmentation sémantique ADE20K de 54,7.

TransNeXt : Perception visuelle foveale robuste pour les Vision Transformers | Articles de recherche récents | HyperAI