HyperAIHyperAI

Command Palette

Search for a command to run...

Alignment Enhancement Network für feinkörnige visuelle Kategorisierung

Yutao Hu

Zusammenfassung

Feinabgestufte visuelle Kategorisierung (Fine-grained Visual Categorization, FGVC) zielt darauf ab, Objekte aus verschiedenen untergeordneten Kategorien automatisch zu erkennen. Trotz erheblicher Aufmerksamkeit aus akademischer und industrieller Sicht bleibt diese Aufgabe aufgrund der subtilen visuellen Unterschiede zwischen den Klassen weiterhin herausfordernd. Die Aggregation von Merkmalen über mehrere Schichten und das paarweise Lernen über verschiedene Bilder haben sich als etablierte Ansätze zur Verbesserung der FGVC-Leistung etabliert, da sie diskriminative, klassenspezifische Merkmale extrahieren können. Dennoch sind diese Methoden ineffizient bei der vollständigen Nutzung der über-Schicht-Informationen, da sie auf einfachen Aggregationsstrategien basieren, während bestehende paarweise Lernmethoden ebenfalls nicht in der Lage sind, langreichweitige Interaktionen zwischen verschiedenen Bildern zu erfassen. Um diese Probleme zu lösen, schlagen wir ein neuartiges Alignment-Enhancement-Netzwerk (AENet) vor, das zwei Ebenen von Ausrichtungen beinhaltet: Cross-layer Alignment (CLA) und Cross-image Alignment (CIA). Der CLA-Modul nutzt die Beziehung zwischen niedrigstufigen räumlichen Informationen und hochstufigen semantischen Informationen, um die Merkmalsaggregation über Schichten hinweg zu verbessern und die Darstellungskapazität der Eingabebilder zu erhöhen. Der neu eingeführte CIA-Modul erzeugt zudem eine ausgerichtete Merkmalskarte, die relevante Informationen stärkt und irrelevante Informationen im gesamten räumlichen Bereich unterdrückt. Unser Ansatz basiert auf der grundlegenden Annahme, dass die ausgerichtete Merkmalskarte bei gleichen Kategorien der Eingabe des CIA-Blocks näher kommen sollte. Dementsprechend führen wir eine Semantische Affinitätsverlustfunktion (Semantic Affinity Loss) ein, um die Merkmalsausrichtung innerhalb jedes CIA-Blocks zu überwachen. Experimentelle Ergebnisse auf vier anspruchsvollen Datensätzen zeigen, dass das vorgeschlagene AENet die bisher besten Ergebnisse im Vergleich zu vorherigen Ansätzen erzielt.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
Alignment Enhancement Network für feinkörnige visuelle Kategorisierung | Paper | HyperAI