GKGNet : Réseau de convolution graphique basé sur le groupe des k-plus proches voisins pour la reconnaissance d'images multi-étiquettes

La reconnaissance d'images multi-étiquettes (MLIR) est une tâche complexe visant à prédire plusieurs étiquettes d'objets dans une seule image tout en modélisant les relations complexes entre les étiquettes et les régions de l'image. Bien que les réseaux neuronaux convolutifs et les transformateurs visuels aient réussi à traiter les images comme des grilles régulières de pixels ou de patches, ces représentations sont sous-optimales pour capturer des régions d'intérêt irrégulières et discontinues. Dans ce travail, nous présentons le premier modèle entièrement convolutif sur graphe, le réseau convolutif sur graphe basé sur le groupe des plus proches voisins (GKGNet), qui modélise les connexions entre les plongements sémantiques des étiquettes et les patches d'image dans une structure de graphe flexible et unifiée.Pour aborder la variance d'échelle des différents objets et capturer l'information sous plusieurs angles, nous proposons le module Group KGCN pour la construction dynamique de graphes et le passage de messages. Nos expériences montrent que GKGNet atteint des performances de pointe avec des coûts computationnels nettement inférieurs sur des jeux de données multi-étiquettes difficiles, tels que les ensembles MS-COCO et VOC2007. Les codes sources sont disponibles à l'adresse suivante : https://github.com/jin-s13/GKGNet.