HyperAIHyperAI

Command Palette

Search for a command to run...

Feature Fusion Vision Transformer für die feinkörnige visuelle Kategorisierung

Jun Wang Xiaohan Yu Yongsheng Gao

Zusammenfassung

Der Schlüssel zur Bewältigung der feinkörnigen visuellen Kategorisierung (Fine-Grained Visual Categorization, FGVC) liegt in der Lernung subtiler, jedoch diskriminativer Merkmale. Die meisten bisherigen Ansätze erreichen dies, indem sie explizit diskriminative Teile auswählen oder die Aufmerksamkeitsmechanismen über CNN-basierte Ansätze integrieren. Diese Methoden erhöhen jedoch die Rechenkomplexität und führen dazu, dass das Modell dominiert wird von Regionen, die die meisten Objekte enthalten. In jüngster Zeit hat der Vision Transformer (ViT) eine state-of-the-art (SOTA)-Leistung bei allgemeinen Bilderkennungsaufgaben erzielt. Der selbst-Attention-Mechanismus aggregiert und gewichtet die Informationen aller Patch-Teile auf den Klassifikationstoken, was ihn besonders gut für FGVC geeignet macht. Dennoch legt das Klassifikationstoken in den tiefen Schichten stärker auf globale Informationen Wert und verfügt über einen Mangel an lokalen und niedrigstufigen Merkmalen, die für FGVC entscheidend sind. In dieser Arbeit schlagen wir einen neuartigen, rein transformer-basierten Ansatz namens Feature Fusion Vision Transformer (FFVT) vor, bei dem wichtige Tokens aus jeder Transformer-Schicht aggregiert werden, um die fehlenden lokalen, niedrigstufigen und mittelstufigen Informationen zu kompensieren. Wir entwerfen ein neuartiges Token-Auswahlmodul namens Mutual Attention Weight Selection (MAWS), das das Netzwerk effizient und effektiv bei der Auswahl diskriminativer Tokens unterstützt, ohne zusätzliche Parameter einzuführen. Die Wirksamkeit von FFVT wird an drei Benchmarks überprüft, wobei FFVT die state-of-the-art-Leistung erreicht.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
Feature Fusion Vision Transformer für die feinkörnige visuelle Kategorisierung | Paper | HyperAI