HyperAIHyperAI
il y a 17 jours

Amélioration, suppression et diversification des caractéristiques pour la classification visuelle fine

Jianwei Song, Ruoyu Yang
Amélioration, suppression et diversification des caractéristiques pour la classification visuelle fine
Résumé

L’apprentissage de représentations fonctionnelles à partir de régions locales discriminantes joue un rôle fondamental dans la classification visuelle fine. L’utilisation de mécanismes d’attention pour extraire des caractéristiques de parties est devenue une tendance émergente. Toutefois, ces méthodes souffrent de deux limites majeures : premièrement, elles se concentrent souvent sur la partie la plus saillante tout en négligeant d’autres parties moins visibles mais tout aussi discriminantes ; deuxièmement, elles traitent les caractéristiques de chaque partie de manière isolée, en ignorant leurs relations mutuelles. Pour surmonter ces limitations, nous proposons de localiser plusieurs parties distinctes et discriminantes, tout en explorant explicitement leurs relations. À cette fin, nous introduisons deux modules légers pouvant être facilement intégrés dans les réseaux neuronaux convolutifs existants. D’une part, nous proposons un module d’amplification et de suppression des caractéristiques, qui amplifie la partie la plus saillante des cartes de caractéristiques afin d’obtenir une représentation spécifique à cette partie, puis la supprime pour contraindre le réseau suivant à découvrir d’autres parties potentielles. D’autre part, nous introduisons un module de diversification des caractéristiques, qui apprend des informations sémantiquement complémentaires à partir des représentations spécifiques aux parties corrélées. Notre méthode ne nécessite ni annotations de boîtes englobantes ni annotations de parties, et peut être entraînée de manière end-to-end. Les résultats expérimentaux étendus montrent que notre approche atteint des performances de pointe sur plusieurs jeux de données standard de classification visuelle fine. Le code source est disponible à l’adresse suivante : https://github.com/chaomaer/FBSD.