HyperAIHyperAI

Command Palette

Search for a command to run...

Transformer avec suppression de pics et guidance par connaissance pour la reconnaissance d'images fine-grained

Xinda Liu Lili Wang Xiaoguang Han

Résumé

La reconnaissance d’images à granularité fine est un défi car les indices discriminants sont généralement fragmentés, qu’il s’agisse d’une seule image ou de plusieurs images. Malgré leurs progrès significatifs, la plupart des méthodes existantes se concentrent encore sur les parties les plus discriminantes d’une image unique, en ignorant les détails informatifs présents dans d’autres régions et en négligeant les indices provenant d’images associées. Dans cet article, nous analysons les difficultés de la reconnaissance d’images à granularité fine sous un nouvel angle et proposons une architecture de transformer munie d’un module de suppression de pics et d’un module de guidage par connaissance, qui prend en compte la diversité des caractéristiques discriminantes au sein d’une même image ainsi que l’agrégation des indices discriminants entre plusieurs images. Plus précisément, le module de suppression de pics convertit d’abord l’image d’entrée en une séquence de tokens à l’aide d’une projection linéaire, puis bloque les tokens en fonction de la réponse d’attention générée par le encodeur de transformer. Ce module pénalise l’attention portée aux zones les plus discriminantes pendant le processus d’apprentissage des caractéristiques, favorisant ainsi l’exploitation des régions autrement négligées. Le module de guidage par connaissance compare la représentation issue de l’image obtenue via le module de suppression de pics avec un ensemble d’embeddings de connaissance apprenables afin d’obtenir des coefficients de réponse de connaissance. Il formule ensuite l’apprentissage de la connaissance comme un problème de classification, en utilisant ces coefficients comme scores de classification. Pendant l’entraînement, les embeddings de connaissance et les représentations basées sur les images sont mis à jour de manière itérative, de sorte que les embeddings de connaissance intègrent progressivement les indices discriminants propres à différentes images. Enfin, nous intégrons les embeddings de connaissance acquis aux représentations basées sur les images pour former des représentations complètes, conduisant à une performance nettement améliorée. Des évaluations étendues sur six jeux de données populaires démontrent l’avantage de la méthode proposée.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp