HyperAIHyperAI

Command Palette

Search for a command to run...

GKGNet : Réseau de convolution graphique basé sur le groupe des k-plus proches voisins pour la reconnaissance d'images multi-étiquettes

Ruijie Yao Sheng Jin* Lumin Xu Wang Zeng Wentao Liu Chen Qian* Ping Luo Ji Wu

Résumé

La reconnaissance d'images multi-étiquettes (MLIR) est une tâche complexe visant à prédire plusieurs étiquettes d'objets dans une seule image tout en modélisant les relations complexes entre les étiquettes et les régions de l'image. Bien que les réseaux neuronaux convolutifs et les transformateurs visuels aient réussi à traiter les images comme des grilles régulières de pixels ou de patches, ces représentations sont sous-optimales pour capturer des régions d'intérêt irrégulières et discontinues. Dans ce travail, nous présentons le premier modèle entièrement convolutif sur graphe, le réseau convolutif sur graphe basé sur le groupe des plus proches voisins (GKGNet), qui modélise les connexions entre les plongements sémantiques des étiquettes et les patches d'image dans une structure de graphe flexible et unifiée.Pour aborder la variance d'échelle des différents objets et capturer l'information sous plusieurs angles, nous proposons le module Group KGCN pour la construction dynamique de graphes et le passage de messages. Nos expériences montrent que GKGNet atteint des performances de pointe avec des coûts computationnels nettement inférieurs sur des jeux de données multi-étiquettes difficiles, tels que les ensembles MS-COCO et VOC2007. Les codes sources sont disponibles à l'adresse suivante : https://github.com/jin-s13/GKGNet.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp
GKGNet : Réseau de convolution graphique basé sur le groupe des k-plus proches voisins pour la reconnaissance d'images multi-étiquettes | Articles | HyperAI