GKGNet: Gruppen-basierter K-Nächster-Nachbar-Graph-Konvolutionales Netzwerk für die Mehrfachetikettierung von Bildern

Die Mehrfachetikettierung von Bildern (Multi-Label Image Recognition, MLIR) ist eine herausfordernde Aufgabe, die darauf abzielt, mehrere Objektetiketten in einem einzelnen Bild vorherzusagen und dabei die komplexen Beziehungen zwischen Etiketten und Bildbereichen zu modellieren. Obwohl Faltungsneuronale Netze (Convolutional Neural Networks, CNNs) und Visionstransformatoren erfolgreich bei der Verarbeitung von Bildern als regulären Pixel- oder Patch-Gittern waren, sind diese Darstellungen für die Erfassung von irregulären und unkontinuierlichen Bereichen von Interesse suboptimal. In dieser Arbeit stellen wir das erste vollständig graphbasierte Faltungsmodell vor: Das Gruppen K-nächsten-Nachbarn-basierte Graph-Faltungsnetzwerk (Group K-nearest neighbor based Graph Convolutional Network, GKGNet), das die Verbindungen zwischen semantischen Etiketteneinbettungen und Bildpatches in einer flexiblen und einheitlichen Graphstruktur modelliert.Um die Skalenvarianz verschiedener Objekte zu berücksichtigen und Informationen aus mehreren Perspektiven zu erfassen, schlagen wir den Gruppen-KGCN-Modul für die dynamische Graphkonstruktion und Nachrichtenübermittlung vor. Unsere Experimente zeigen, dass GKGNet auf anspruchsvollen Mehrfachetikettierungsdatensätzen wie MS-COCO und VOC2007 state-of-the-art Leistung erzielt, wobei es erheblich geringere Rechenkosten verursacht. Der Quellcode ist unter https://github.com/jin-s13/GKGNet verfügbar.