HyperAIHyperAI
il y a 17 jours

Réseau de vision attentionnel

Meng-Hao Guo, Cheng-Ze Lu, Zheng-Ning Liu, Ming-Ming Cheng, Shi-Min Hu
Réseau de vision attentionnel
Résumé

Bien que conçu initialement pour des tâches de traitement du langage naturel, le mécanisme d’attention auto-associative a récemment révolutionné divers domaines de la vision par ordinateur. Toutefois, la nature bidimensionnelle des images pose trois défis majeurs à l’application de l’attention auto-associative en vision par ordinateur : (1) traiter les images comme des séquences unidimensionnelles ignore leur structure bidimensionnelle intrinsèque ; (2) la complexité quadratique s’avère prohibitivement coûteuse pour des images à haute résolution ; (3) elle ne capture que l’adaptabilité spatiale tout en négligeant l’adaptabilité canal. Dans ce travail, nous proposons une nouvelle attention linéaire, nommée Large Kernel Attention (LKA), permettant d’instaurer des corrélations auto-adaptatives et à longue portée dans l’attention auto-associative tout en évitant ses limites. Par ailleurs, nous introduisons un réseau neuronal fondé sur LKA, appelé Visual Attention Network (VAN). Extrêmement simple, VAN dépasse des modèles de taille comparable, tant les Transformers pour la vision (ViTs) que les réseaux de neurones convolutifs (CNNs), sur diverses tâches, notamment la classification d’images, la détection d’objets, la segmentation sémantique, la segmentation panoptique, l’estimation de posture, etc. Par exemple, VAN-B6 atteint une précision de 87,8 % sur le benchmark ImageNet et établit un nouveau record d’état de l’art (58,2 PQ) pour la segmentation panoptique. En outre, VAN-B2 surpassé Swin-T de 4 points de mIoU (50,1 contre 46,1) sur le benchmark ADE20K pour la segmentation sémantique, et de 2,6 points de AP (48,8 contre 46,2) sur le jeu de données COCO pour la détection d’objets. Ce travail offre une nouvelle méthode ainsi qu’une base simple mais puissante pour la communauté. Le code est disponible à l’adresse suivante : https://github.com/Visual-Attention-Network.

Réseau de vision attentionnel | Articles de recherche récents | HyperAI