Verflechtung von Einsichten: Hochordnungsfunktionen für feinkörnige visuelle Erkennung
Diese Arbeit präsentiert einen neuartigen Ansatz für die feinabgestimmte visuelle Klassifikation (Fine-Grained Visual Classification, FGVC), indem Graph Neural Networks (GNNs) genutzt werden, um hochgradige Merkmalsinteraktionen zu fördern, wobei besonderes Augenmerk auf die Konstruktion sowohl von Inter- als auch von Intra-Region-Graphen liegt. Im Gegensatz zu früheren FGVC-Techniken, die globale und lokale Merkmale oft isoliert behandeln, kombiniert unser Verfahren diese Merkmale nahtlos während des Lernprozesses über Graphen. Inter-Region-Graphen erfassen langreichweitige Abhängigkeiten zur Erkennung globaler Muster, während Intra-Region-Graphen durch die Exploration hochdimensionaler konvolutionaler Merkmale feinere Details innerhalb spezifischer Objektregionen erfassen. Ein zentraler Innovationsaspekt ist die Verwendung gemeinsamer GNNs mit einer Aufmerksamkeitsmechanik, kombiniert mit dem Approximate Personalized Propagation of Neural Predictions (APPNP)-Nachrichtenübertragungsalgorithmus, was die Effizienz der Informationsweitergabe erhöht und somit eine bessere Unterscheidbarkeit ermöglicht, gleichzeitig aber auch die Modellarchitektur vereinfacht, um rechnerische Effizienz zu gewährleisten. Zudem trägt die Einführung von Residual-Verbindungen zur Verbesserung der Leistungsfähigkeit und Stabilität des Trainings bei. Umfassende Experimente zeigen state-of-the-art-Ergebnisse auf etablierten FGVC-Datensätzen und bestätigen die Wirksamkeit unseres Ansatzes. Diese Arbeit unterstreicht das Potenzial von GNNs zur Modellierung von hochstufigen Merkmalsinteraktionen und hebt sich von früheren FGVC-Methoden ab, die typischerweise nur einzelne Aspekte der Merkmalsrepräsentation betonen. Der Quellcode ist unter https://github.com/Arindam-1991/I2-HOFI verfügbar.