Apprentissage de représentations graphiques spécifiques sémantiquement pour la reconnaissance d'images multi-étiquettes

La reconnaissance de multiples étiquettes d'images est une tâche pratique et complexe, et des progrès significatifs ont été réalisés grâce à la recherche de régions sémantiques conscientes du sens et à la modélisation des dépendances entre les étiquettes. Cependant, les méthodes actuelles ne peuvent pas localiser précisément les régions sémantiques en raison du manque de supervision au niveau des parties ou de guidage sémantique. De plus, elles ne peuvent pas pleinement explorer les interactions mutuelles entre les régions sémantiques et ne modélisent pas explicitement la co-occurrence des étiquettes. Pour remédier à ces problèmes, nous proposons un cadre de apprentissage de représentations graphiques spécifiques aux sémantiques (SSGRL) composé de deux modules cruciaux : 1) un module de découpement sémantique qui intègre les sémantiques catégorielles pour guider l'apprentissage de représentations spécifiques aux sémantiques et 2) un module d'interaction sémantique qui corrèle ces représentations avec un graphe construit sur la co-occurrence statistique des étiquettes et explore leurs interactions par le biais d'un mécanisme de propagation graphique. Des expériences approfondies sur des benchmarks publics montrent que notre cadre SSGRL surpassent nettement les méthodes actuelles les plus avancées, par exemple avec une amélioration de l'mAP de 2,5 %, 2,6 %, 6,7 % et 3,1 % sur les benchmarks PASCAL VOC 2007 & 2012, Microsoft-COCO et Visual Genome, respectivement. Nos codes et modèles sont disponibles à l'adresse suivante : https://github.com/HCPLab-SYSU/SSGRL.