il y a 17 jours

Transformer avec suppression de pics et guidance par connaissance pour la reconnaissance d'images fine-grained

Xinda Liu, Lili Wang, Xiaoguang Han

Résumé

La reconnaissance d’images à granularité fine est un défi car les indices discriminants sont généralement fragmentés, qu’il s’agisse d’une seule image ou de plusieurs images. Malgré leurs progrès significatifs, la plupart des méthodes existantes se concentrent encore sur les parties les plus discriminantes d’une image unique, en ignorant les détails informatifs présents dans d’autres régions et en négligeant les indices provenant d’images associées. Dans cet article, nous analysons les difficultés de la reconnaissance d’images à granularité fine sous un nouvel angle et proposons une architecture de transformer munie d’un module de suppression de pics et d’un module de guidage par connaissance, qui prend en compte la diversité des caractéristiques discriminantes au sein d’une même image ainsi que l’agrégation des indices discriminants entre plusieurs images. Plus précisément, le module de suppression de pics convertit d’abord l’image d’entrée en une séquence de tokens à l’aide d’une projection linéaire, puis bloque les tokens en fonction de la réponse d’attention générée par le encodeur de transformer. Ce module pénalise l’attention portée aux zones les plus discriminantes pendant le processus d’apprentissage des caractéristiques, favorisant ainsi l’exploitation des régions autrement négligées. Le module de guidage par connaissance compare la représentation issue de l’image obtenue via le module de suppression de pics avec un ensemble d’embeddings de connaissance apprenables afin d’obtenir des coefficients de réponse de connaissance. Il formule ensuite l’apprentissage de la connaissance comme un problème de classification, en utilisant ces coefficients comme scores de classification. Pendant l’entraînement, les embeddings de connaissance et les représentations basées sur les images sont mis à jour de manière itérative, de sorte que les embeddings de connaissance intègrent progressivement les indices discriminants propres à différentes images. Enfin, nous intégrons les embeddings de connaissance acquis aux représentations basées sur les images pour former des représentations complètes, conduisant à une performance nettement améliorée. Des évaluations étendues sur six jeux de données populaires démontrent l’avantage de la méthode proposée.