il y a 17 jours

Vision Eagle Attention : une nouvelle lentille pour l'avancement de la classification d'images

Mahmudul Hasan

Résumé

Dans les tâches de vision par ordinateur, la capacité à se concentrer sur les régions pertinentes d'une image est essentielle pour améliorer les performances des modèles, en particulier lorsque les caractéristiques clés sont petites, subtiles ou dispersées spatialement. Les réseaux de neurones convolutifs (CNN) traitent généralement toutes les régions de l'image de manière équivalente, ce qui peut entraîner une extraction de caractéristiques inefficace. Pour répondre à ce défi, j’ai introduit Vision Eagle Attention, un mécanisme d’attention novateur qui améliore l’extraction de caractéristiques visuelles grâce à une attention spatiale convolutive. Ce modèle applique une convolution pour capturer les caractéristiques spatiales locales et génère une carte d’attention qui met en évidence de manière sélective les régions les plus informatives de l’image. Ce mécanisme d’attention permet au modèle de se concentrer sur les caractéristiques discriminantes tout en supprimant les informations de fond non pertinentes. J’ai intégré Vision Eagle Attention dans une architecture légère ResNet-18, démontrant que cette combinaison donne lieu à un modèle à la fois efficace et puissant. J’ai évalué les performances du modèle proposé sur trois jeux de données standards largement utilisés : FashionMNIST, Intel Image Classification et OracleMNIST, avec un accent particulier sur la classification d’images. Les résultats expérimentaux montrent que l’approche proposée améliore significativement la précision de classification. En outre, cette méthode peut être étendue à d’autres tâches de vision, telles que la détection d’objets, la segmentation ou le suivi visuel, offrant ainsi une solution computationnellement efficace pour un large éventail d’applications basées sur la vision. Le code est disponible à l’adresse suivante : https://github.com/MahmudulHasan11085/Vision-Eagle-Attention.git