HyperAIHyperAI
vor 17 Tagen

Transformer mit Spitzenunterdrückung und Wissensführung für die feinkörnige Bilderkennung

Xinda Liu, Lili Wang, Xiaoguang Han
Transformer mit Spitzenunterdrückung und Wissensführung für die feinkörnige Bilderkennung
Abstract

Die Feinabstufung von Bildern ist herausfordernd, da diskriminative Hinweise oft fragmentiert sind, sei es innerhalb eines einzelnen Bildes oder über mehrere Bilder hinweg. Trotz erheblicher Fortschritte konzentrieren sich die meisten bestehenden Methoden weiterhin auf die am stärksten diskriminativen Regionen innerhalb eines einzelnen Bildes, ignorieren dabei informative Details in anderen Bildregionen und berücksichtigen nicht die Hinweise aus anderen assoziierten Bildern. In diesem Artikel analysieren wir die Schwierigkeiten der Feinabstufung von Bildern aus einer neuen Perspektive und schlagen eine Transformer-Architektur mit einem Peak-Suppression-Modul und einem Knowledge-Guidance-Modul vor, die sowohl die Diversität diskriminativer Merkmale innerhalb eines einzelnen Bildes respektiert als auch die Aggregation diskriminativer Hinweise über mehrere Bilder hinweg berücksichtigt. Konkret wandelt das Peak-Suppression-Modul zunächst mithilfe einer linearen Projektion das Eingabebild in eine Folge von Tokens um. Anschließend blockiert es bestimmte Tokens basierend auf der Aufmerksamkeitsantwort, die vom Transformer-Encoder generiert wird. Dieses Modul straft die Aufmerksamkeit auf die am stärksten diskriminativen Bereiche im Lernprozess, wodurch die Ausnutzung von Informationen in vernachlässigten Regionen verbessert wird. Das Knowledge-Guidance-Modul vergleicht die aus dem Peak-Suppression-Modul generierte bildbasierte Darstellung mit einer lernbaren Wissens-Embedding-Menge, um die Wissens-Antwort-Koeffizienten zu ermitteln. Anschließend formuliert es das Wissenslernen als Klassifikationsproblem, wobei die Antwort-Koeffizienten als Klassifikationswerte dienen. Während des Trainings werden sowohl die Wissens-Embeddings als auch die bildbasierten Darstellungen aktualisiert, sodass die Wissens-Embeddings diskriminative Hinweise für verschiedene Bilder enthalten. Schließlich integrieren wir die gewonnenen Wissens-Embeddings in die bildbasierten Darstellungen, um umfassende Repräsentationen zu erzeugen, was zu einer signifikant höheren Leistung führt. Umfassende Evaluierungen auf sechs etablierten Datensätzen belegen den Vorteil des vorgeschlagenen Ansatzes.