Feature Fusion Vision Transformer für die feinkörnige visuelle Kategorisierung

Der Schlüssel zur Bewältigung der feinkörnigen visuellen Kategorisierung (Fine-Grained Visual Categorization, FGVC) liegt in der Lernung subtiler, jedoch diskriminativer Merkmale. Die meisten bisherigen Ansätze erreichen dies, indem sie explizit diskriminative Teile auswählen oder die Aufmerksamkeitsmechanismen über CNN-basierte Ansätze integrieren. Diese Methoden erhöhen jedoch die Rechenkomplexität und führen dazu, dass das Modell dominiert wird von Regionen, die die meisten Objekte enthalten. In jüngster Zeit hat der Vision Transformer (ViT) eine state-of-the-art (SOTA)-Leistung bei allgemeinen Bilderkennungsaufgaben erzielt. Der selbst-Attention-Mechanismus aggregiert und gewichtet die Informationen aller Patch-Teile auf den Klassifikationstoken, was ihn besonders gut für FGVC geeignet macht. Dennoch legt das Klassifikationstoken in den tiefen Schichten stärker auf globale Informationen Wert und verfügt über einen Mangel an lokalen und niedrigstufigen Merkmalen, die für FGVC entscheidend sind. In dieser Arbeit schlagen wir einen neuartigen, rein transformer-basierten Ansatz namens Feature Fusion Vision Transformer (FFVT) vor, bei dem wichtige Tokens aus jeder Transformer-Schicht aggregiert werden, um die fehlenden lokalen, niedrigstufigen und mittelstufigen Informationen zu kompensieren. Wir entwerfen ein neuartiges Token-Auswahlmodul namens Mutual Attention Weight Selection (MAWS), das das Netzwerk effizient und effektiv bei der Auswahl diskriminativer Tokens unterstützt, ohne zusätzliche Parameter einzuführen. Die Wirksamkeit von FFVT wird an drei Benchmarks überprüft, wobei FFVT die state-of-the-art-Leistung erreicht.