HyperAIHyperAI

Command Palette

Search for a command to run...

SIM-Trans : Modèle de Transformation pour la Modélisation de l'Information Structurée en Catégorisation Visuelle Fine-grained

Hongbo Sun Wangxuan Institute of Computer Technology, Peking University, Beijing, China, [email protected] Xiangteng He Wangxuan Institute of Computer Technology, Peking University, Beijing, China, [email protected] Yuxin Peng* Wangxuan Institute of Computer Technology, Peking University, Beijing, China, [email protected]

Résumé

La catégorisation visuelle à grain fin (FGVC) vise à reconnaître des objets appartenant à des sous-catégories similaires, ce qui est un défi important et pratique pour les besoins d'identification automatique précise de l'homme. La plupart des approches en FGVC se concentrent sur la recherche de mécanismes d'attention pour l'extraction de régions discriminantes, tout en négligeant leurs interdépendances et la structure holistique composée de l'objet, éléments essentiels pour la localisation et la compréhension de l'information discriminante par le modèle. Pour remédier aux limitations mentionnées, nous proposons le Structure Information Modeling Transformer (SIM-Trans), qui intègre les informations structurales de l'objet dans le transformer afin d'améliorer l'apprentissage de représentations discriminantes contenant à la fois les informations d'apparence et de structure.Plus précisément, nous codons l'image en une séquence de jetons de patchs et construisons un cadre robuste de transformer visuel avec deux modules bien conçus : (i) le module d'apprentissage des informations structurales (SIL) est proposé pour extraire les relations contextuelles spatiales entre les patchs significatifs au sein de l'étendue de l'objet, grâce aux poids d'auto-attention du transformer. Ces relations sont ensuite intégrées au modèle pour y importer les informations structurales ; (ii) le module de renforcement des caractéristiques multiniveau (MFB) est introduit pour exploiter le complémentarité des caractéristiques multiniveau et l'apprentissage contrastif entre classes afin d'améliorer la robustesse des caractéristiques pour une reconnaissance précise. Les deux modules proposés sont légers et peuvent être intégrés à n'importe quel réseau transformer et entraînés bout à bout facilement, ne dépendant que des poids d'attention fournis par le transformer visuel lui-même.Des expérimentations étendues et des analyses démontrent que le SIM-Trans proposé atteint des performances state-of-the-art sur les bancs d'essai de catégorisation visuelle à grain fin. Le code source est disponible sur https://github.com/PKU-ICST-MIPL/SIM-Trans_ACMMM2022.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp
SIM-Trans : Modèle de Transformation pour la Modélisation de l'Information Structurée en Catégorisation Visuelle Fine-grained | Articles | HyperAI