HyperAIHyperAI
vor 2 Monaten

SIM-Trans: Strukturinformationeller Transformer für feingranulare visuelle Kategorisierung

Sun, Hongbo ; He, Xiangteng ; Peng, Yuxin
SIM-Trans: Strukturinformationeller Transformer für feingranulare visuelle Kategorisierung
Abstract

Feinmaschige visuelle Kategorisierung (FGVC) zielt darauf ab, Objekte aus ähnlichen untergeordneten Kategorien zu erkennen, was für die genaue automatische Erkennung von Menschen sowohl herausfordernd als auch praktisch ist. Die meisten FGVC-Ansätze konzentrieren sich auf die Forschung zum Aufmerksamkeitsmechanismus zur Gewinnung diskriminativer Regionen, während sie deren Wechselwirkungen und die zusammengesetzte holistische Objektstruktur vernachlässigen, die für die Fähigkeit des Modells, diskriminative Informationslokalisierung und Verständnis zu erlangen, wesentlich sind. Um die oben genannten Einschränkungen zu beheben, schlagen wir den Strukturinformationsmodellierungs-Transformer (SIM-Trans) vor, um Strukturinformationen in den Transformer zu integrieren und so das Lernen diskriminativer Repräsentationen zu verbessern, sodass sowohl Erscheinungs- als auch Strukturinformationen enthalten sind.Speziell kodieren wir das Bild in eine Folge von Patch-Token und bauen einen leistungsfähigen Vision-Transformer-Rahmen mit zwei gut konzipierten Modulen auf: (i) Das Modul zur Lernstrukturinformation (SIL) wird vorgeschlagen, um mithilfe der Selbst-Aufmerksamkeitsgewichte des Transformers die räumliche Kontextbeziehung signifikanter Patches innerhalb der Objektgrenzen zu gewinnen. Diese Information wird anschließend in das Modell injiziert, um Strukturinformationen einzubringen; (ii) Das Modul zur Mehrstufigen Merkmalsverstärkung (MFB) wird eingeführt, um die Komplementarität mehrstufiger Merkmale und das kontrastive Lernen zwischen Klassen auszunutzen, um die Merkmalsrobustheit für eine genaue Erkennung zu erhöhen. Die beiden vorgeschlagenen Module sind leichtgewichtig und können problemlos in jedes Transformer-Netzwerk integriert und end-to-end trainiert werden. Sie basieren ausschließlich auf den Aufmerksamkeitsgewichten des Vision-Transformers selbst. Ausführliche Experimente und Analysen zeigen, dass der vorgeschlagene SIM-Trans den Stand der Technik bei Feinmaschigem visuellen Kategorisierungsbenchmarks erreicht. Der Code ist unter https://github.com/PKU-ICST-MIPL/SIM-Trans_ACMMM2022 verfügbar.