Classification visuelle fine-grained via Transformer apprentissage par ensemble interne
Récemment, les transformateurs de vision (ViTs) ont fait l’objet d’une étude approfondie dans le domaine de la reconnaissance visuelle fine-grainée (FGVC) et sont désormais considérés comme l’état de l’art. Toutefois, la plupart des travaux basés sur les ViTs ignorent les différences de performance d’apprentissage entre les têtes dans le mécanisme d’attention multi-têtes (MHSA) ainsi que celles entre les couches. Pour remédier à ces limites, nous proposons dans cet article un nouveau modèle de transformateur à apprentissage par ensemble interne (IELT) dédié à la FGVC. Le modèle IELT repose sur trois modules principaux : un module de vote multi-têtes (MHV), un module de raffinement cross-couche (CLR) et un module de sélection dynamique (DS). Afin de traiter le problème de la disparité des performances entre plusieurs têtes, le module MHV considère toutes les têtes de chaque couche comme des apprenants faibles, et réalise un vote sur les tokens correspondant aux régions discriminantes, en se basant sur les cartes d’attention et les relations spatiales, pour produire des caractéristiques cross-couche. Pour extraire efficacement les caractéristiques cross-couche tout en supprimant le bruit, le module CLR est introduit, permettant d’extraire des caractéristiques raffinées et de développer une opération d’« logits d’assistance » pour la prédiction finale. En outre, le module DS nouvellement conçu ajuste dynamiquement le nombre de tokens sélectionnés à chaque couche en pondérant leurs contributions à la caractéristique raffinée. Ainsi, l’idée d’apprentissage par ensemble est intégrée au ViT afin d’améliorer la représentation des caractéristiques fine-grainées. Les expérimentations montrent que notre méthode atteint des résultats compétitifs par rapport à l’état de l’art sur cinq jeux de données populaires de FGVC. Le code source est disponible à l’adresse suivante : https://github.com/mobulan/IELT.