il y a 8 mois

Hongbo Sun Wangxuan Institute of Computer Technology, Peking University, Beijing, China, [email protected] Xiangteng He Wangxuan Institute of Computer Technology, Peking University, Beijing, China, [email protected] Yuxin Peng* Wangxuan Institute of Computer Technology, Peking University, Beijing, China, [email protected]

Résumé

La catégorisation visuelle à grain fin (FGVC) vise à reconnaître des objets appartenant à des sous-catégories similaires, ce qui est un défi important et pratique pour les besoins d'identification automatique précise de l'homme. La plupart des approches en FGVC se concentrent sur la recherche de mécanismes d'attention pour l'extraction de régions discriminantes, tout en négligeant leurs interdépendances et la structure holistique composée de l'objet, éléments essentiels pour la localisation et la compréhension de l'information discriminante par le modèle. Pour remédier aux limitations mentionnées, nous proposons le Structure Information Modeling Transformer (SIM-Trans), qui intègre les informations structurales de l'objet dans le transformer afin d'améliorer l'apprentissage de représentations discriminantes contenant à la fois les informations d'apparence et de structure.Plus précisément, nous codons l'image en une séquence de jetons de patchs et construisons un cadre robuste de transformer visuel avec deux modules bien conçus : (i) le module d'apprentissage des informations structurales (SIL) est proposé pour extraire les relations contextuelles spatiales entre les patchs significatifs au sein de l'étendue de l'objet, grâce aux poids d'auto-attention du transformer. Ces relations sont ensuite intégrées au modèle pour y importer les informations structurales ; (ii) le module de renforcement des caractéristiques multiniveau (MFB) est introduit pour exploiter le complémentarité des caractéristiques multiniveau et l'apprentissage contrastif entre classes afin d'améliorer la robustesse des caractéristiques pour une reconnaissance précise. Les deux modules proposés sont légers et peuvent être intégrés à n'importe quel réseau transformer et entraînés bout à bout facilement, ne dépendant que des poids d'attention fournis par le transformer visuel lui-même.Des expérimentations étendues et des analyses démontrent que le SIM-Trans proposé atteint des performances state-of-the-art sur les bancs d'essai de catégorisation visuelle à grain fin. Le code source est disponible sur https://github.com/PKU-ICST-MIPL/SIM-Trans_ACMMM2022.

PDF source Voir le code

Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA

GPU prêts à l’emploi

Tarifs les plus avantageux

Commencer Voir les tarifs

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

HyperAI

il y a 8 mois

Vision Par Ordinateur

Reconnaissance D'images

Classification D'images

Vision Par Ordinateur

Tâche

Hongbo Sun Wangxuan Institute of Computer Technology, Peking University, Beijing, China, [email protected] Xiangteng He Wangxuan Institute of Computer Technology, Peking University, Beijing, China, [email protected] Yuxin Peng* Wangxuan Institute of Computer Technology, Peking University, Beijing, China, [email protected]

Résumé

PDF source Voir le code

Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA

GPU prêts à l’emploi

Tarifs les plus avantageux

Commencer Voir les tarifs

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

HyperAI

il y a 8 mois

Vision Par Ordinateur

Reconnaissance D'images

Classification D'images

Vision Par Ordinateur

Tâche

Hongbo Sun Wangxuan Institute of Computer Technology, Peking University, Beijing, China, [email protected] Xiangteng He Wangxuan Institute of Computer Technology, Peking University, Beijing, China, [email protected] Yuxin Peng* Wangxuan Institute of Computer Technology, Peking University, Beijing, China, [email protected]

Résumé

PDF source Voir le code

Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA

GPU prêts à l’emploi

Tarifs les plus avantageux

Commencer Voir les tarifs

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

SIM-Trans : Modèle de Transformation pour la Modélisation de l'Information Structurée en Catégorisation Visuelle Fine-grained | Articles | HyperAI

Command Palette

SIM-Trans : Modèle de Transformation pour la Modélisation de l'Information Structurée en Catégorisation Visuelle Fine-grained

Résumé

Créer de l'IA avec l'IA

HyperAI Newsletters

Command Palette

SIM-Trans : Modèle de Transformation pour la Modélisation de l'Information Structurée en Catégorisation Visuelle Fine-grained

Résumé

Créer de l'IA avec l'IA

HyperAI Newsletters

Command Palette

SIM-Trans : Modèle de Transformation pour la Modélisation de l'Information Structurée en Catégorisation Visuelle Fine-grained

Résumé

Créer de l'IA avec l'IA

HyperAI Newsletters