SIM-Trans : Modèle de Transformation pour la Modélisation de l'Information Structurée en Catégorisation Visuelle Fine-grained

La catégorisation visuelle à grain fin (FGVC) vise à reconnaître des objets appartenant à des sous-catégories similaires, ce qui est un défi important et pratique pour les besoins d'identification automatique précise de l'homme. La plupart des approches en FGVC se concentrent sur la recherche de mécanismes d'attention pour l'extraction de régions discriminantes, tout en négligeant leurs interdépendances et la structure holistique composée de l'objet, éléments essentiels pour la localisation et la compréhension de l'information discriminante par le modèle. Pour remédier aux limitations mentionnées, nous proposons le Structure Information Modeling Transformer (SIM-Trans), qui intègre les informations structurales de l'objet dans le transformer afin d'améliorer l'apprentissage de représentations discriminantes contenant à la fois les informations d'apparence et de structure.Plus précisément, nous codons l'image en une séquence de jetons de patchs et construisons un cadre robuste de transformer visuel avec deux modules bien conçus : (i) le module d'apprentissage des informations structurales (SIL) est proposé pour extraire les relations contextuelles spatiales entre les patchs significatifs au sein de l'étendue de l'objet, grâce aux poids d'auto-attention du transformer. Ces relations sont ensuite intégrées au modèle pour y importer les informations structurales ; (ii) le module de renforcement des caractéristiques multiniveau (MFB) est introduit pour exploiter le complémentarité des caractéristiques multiniveau et l'apprentissage contrastif entre classes afin d'améliorer la robustesse des caractéristiques pour une reconnaissance précise. Les deux modules proposés sont légers et peuvent être intégrés à n'importe quel réseau transformer et entraînés bout à bout facilement, ne dépendant que des poids d'attention fournis par le transformer visuel lui-même.Des expérimentations étendues et des analyses démontrent que le SIM-Trans proposé atteint des performances state-of-the-art sur les bancs d'essai de catégorisation visuelle à grain fin. Le code source est disponible sur https://github.com/PKU-ICST-MIPL/SIM-Trans_ACMMM2022.