vor 2 Monaten

Alignment Enhancement Network für feinkörnige visuelle Kategorisierung

{Yutao Hu}

Abstract

Feinabgestufte visuelle Kategorisierung (Fine-grained Visual Categorization, FGVC) zielt darauf ab, Objekte aus verschiedenen untergeordneten Kategorien automatisch zu erkennen. Trotz erheblicher Aufmerksamkeit aus akademischer und industrieller Sicht bleibt diese Aufgabe aufgrund der subtilen visuellen Unterschiede zwischen den Klassen weiterhin herausfordernd. Die Aggregation von Merkmalen über mehrere Schichten und das paarweise Lernen über verschiedene Bilder haben sich als etablierte Ansätze zur Verbesserung der FGVC-Leistung etabliert, da sie diskriminative, klassenspezifische Merkmale extrahieren können. Dennoch sind diese Methoden ineffizient bei der vollständigen Nutzung der über-Schicht-Informationen, da sie auf einfachen Aggregationsstrategien basieren, während bestehende paarweise Lernmethoden ebenfalls nicht in der Lage sind, langreichweitige Interaktionen zwischen verschiedenen Bildern zu erfassen. Um diese Probleme zu lösen, schlagen wir ein neuartiges Alignment-Enhancement-Netzwerk (AENet) vor, das zwei Ebenen von Ausrichtungen beinhaltet: Cross-layer Alignment (CLA) und Cross-image Alignment (CIA). Der CLA-Modul nutzt die Beziehung zwischen niedrigstufigen räumlichen Informationen und hochstufigen semantischen Informationen, um die Merkmalsaggregation über Schichten hinweg zu verbessern und die Darstellungskapazität der Eingabebilder zu erhöhen. Der neu eingeführte CIA-Modul erzeugt zudem eine ausgerichtete Merkmalskarte, die relevante Informationen stärkt und irrelevante Informationen im gesamten räumlichen Bereich unterdrückt. Unser Ansatz basiert auf der grundlegenden Annahme, dass die ausgerichtete Merkmalskarte bei gleichen Kategorien der Eingabe des CIA-Blocks näher kommen sollte. Dementsprechend führen wir eine Semantische Affinitätsverlustfunktion (Semantic Affinity Loss) ein, um die Merkmalsausrichtung innerhalb jedes CIA-Blocks zu überwachen. Experimentelle Ergebnisse auf vier anspruchsvollen Datensätzen zeigen, dass das vorgeschlagene AENet die bisher besten Ergebnisse im Vergleich zu vorherigen Ansätzen erzielt.