HyperAIHyperAI
vor 18 Tagen

Ein Aufmerksamkeitsortierungs-Algorithmus zur Beseitigung von Hintergrund-Effekten in der feinkörnigen visuellen Klassifikation

{Sam Kwong, Zhengguo Li, Mingliang Zhou, Zhenzhe Hechen, Yueting Huang}
Abstract

Feinabgestufte visuelle Klassifikation (Fine-grained Visual Classification, FGVC) ist eine anspruchsvolle Aufgabe, die durch hohe Ähnlichkeit zwischen Klassen und große Vielfalt innerhalb derselben Klasse gekennzeichnet ist und breite Anwendungsperspektiven besitzt. In jüngster Zeit haben mehrere Methoden den Vision Transformer (ViT) für FGVC-Aufgaben eingesetzt, da die Datenspezifität des Multi-Head-Self-Attention (MSA)-Mechanismus im ViT vorteilhaft für die Extraktion diskriminativer Merkmalsdarstellungen ist. Allerdings konzentrieren sich diese Ansätze hauptsächlich auf die Integration von Merkmalsabhängigkeiten auf einer hohen Ebene, wodurch das Modell leicht durch niedrigstufige Hintergrundinformationen beeinflusst wird. Um dieses Problem zu lösen, schlagen wir einen feinabgestuften Aufmerksamkeits-Ortungs-Vision-Transformer (FAL-ViT) sowie ein Aufmerksamkeits-Auswahlmodul (ASM) vor. Zunächst verfügt FAL-ViT über einen zweistufigen Rahmen, um entscheidende Regionen innerhalb von Bildern effektiv zu identifizieren und Merkmale durch strategische Wiederverwendung von Parametern zu verstärken. Zweitens lokalisiert das ASM wichtige Zielregionen präzise mittels der natürlichen Aufmerksamkeitswerte des MSA und extrahiert feinere, niedrigstufige Merkmale, um durch Positionskarten umfassendere Informationen bereitzustellen. Umfangreiche Experimente auf öffentlichen Datensätzen zeigen, dass FAL-ViT die anderen Methoden hinsichtlich der Leistung übertrifft und somit die Wirksamkeit unserer vorgeschlagenen Ansätze bestätigt. Der Quellcode ist unter https://github.com/Yueting-Huang/FAL-ViT verfügbar.