SR-GNN: Spatial Relation-aware Graph Neural Network für die feinkörnige Bildkategorisierung

In den letzten Jahren wurde erheblicher Fortschritt bei der Bilderkennung auf Basis tiefer konvolutioneller neuronalen Netze (CNNs) erzielt. Dies ist hauptsächlich auf die starke Fähigkeit solcher Netzwerke zurückzuführen, diskriminative Informationen über Objektpose und -teile aus Textur und Form zu extrahieren. Diese Stärke ist jedoch für die feinkörnige visuelle Klassifikation (FGVC) oft ungeeignet, da diese aufgrund von Verdeckungen, Verformungen, Lichtverhältnissen usw. eine hohe intra-klassische und geringe inter-klassische Varianz aufweist. Daher ist eine expressive Merkmalsrepräsentation, die globale Strukturinformationen beschreibt, entscheidend für die Charakterisierung von Objekten oder Szenen. Um dies zu erreichen, schlagen wir eine Methode vor, die feine Veränderungen effektiv erfasst, indem sie kontextbewusste Merkmale aus den relevantesten Bildregionen sowie deren Bedeutung für die Unterscheidung feinkörniger Kategorien aggregiert – ohne dass dafür Box- oder sichtbare Teilannotierungen erforderlich sind. Unsere Herangehensweise wird durch die jüngsten Fortschritte in der Selbst-Attention-Technologie und Graph Neural Networks (GNNs) inspiriert und integriert eine einfache, aber effektive relationenbewusste Merkmalstransformation, die mittels eines kontextbewussten Aufmerksamkeitsmechanismus weiter verfeinert wird, um die Diskriminierbarkeit der transformierten Merkmale in einem end-to-end Lernprozess zu steigern. Unser Modell wird an acht Benchmark-Datensätzen evaluiert, die feinkörnige Objekte und mensch-objekt-Interaktionen enthalten. Es erreicht eine signifikant höhere Erkennungsgenauigkeit als die derzeitigen state-of-the-art Ansätze.