Attention par échantillonnage de parties à plusieurs granularités pour la classification visuelle fine-grain
La classification visuelle fine vise à classifier des sous-catégories similaires, face au défi de fortes variations au sein d'une même sous-catégorie ainsi qu'à une forte similarité visuelle entre différentes sous-catégories. Récemment, les méthodes permettant d’extraire les parties sémantiques des régions discriminantes ont suscité un intérêt croissant. Toutefois, la plupart des approches existantes extraient les caractéristiques des parties à l’aide de boîtes englobantes rectangulaires, via un module de détection d’objets ou une mécanique d’attention, ce qui rend difficile la capture de l’information riche en forme des objets. Dans cet article, nous proposons un nouveau réseau d’attention à échantillonnage de parties à multi-granularité (MPSA) pour la classification visuelle fine. Tout d’abord, nous concevons un bloc novateur de rétrospection de parties à multi-granularité, permettant d’extraire des informations de parties à différentes échelles et d’améliorer la représentation des caractéristiques de haut niveau grâce à des caractéristiques de parties discriminantes à différentes granularités. Ensuite, pour extraire des caractéristiques de parties de diverses formes à chaque niveau de granularité, nous proposons une attention par échantillonnage de parties, capable d’échantillonner de manière exhaustive les parties sémantiques implicites sur les cartes de caractéristiques. L’attention par échantillonnage de parties proposée prend non seulement en compte l’importance des parties échantillonnées, mais introduit également une technique de suppression de parties (part dropout) afin de réduire le surapprentissage. En outre, nous proposons une nouvelle méthode de fusion à multi-granularité, permettant de mettre en évidence les caractéristiques du premier plan tout en supprimant les bruits de fond, avec l’aide de la carte d’activation de classe par gradient. Les résultats expérimentaux démontrent que le MPSA proposé atteint un niveau d’performance de pointe sur quatre benchmarks couramment utilisés pour la classification visuelle fine. Le code source est disponible publiquement à l’adresse suivante : https://github.com/mobulan/MPSA.