Transformer basé sur un graphe de relations dual pour la reconnaissance d'images multi-étiquettes

La reconnaissance simultanée de multiples objets dans une seule image reste une tâche complexe, englobant plusieurs défis du domaine de la reconnaissance, tels que des échelles d'objets variées, des apparences incohérentes et des relations inter-classes confuses. Les efforts de recherche récents s'appuient principalement sur les co-occurrences statistiques des étiquettes et l'embedding linguistique des mots pour améliorer les sémantiques floues. Contrairement à ces travaux, dans cet article, nous proposons un nouveau cadre d'apprentissage de relations dual basé sur le Transformer, construisant des relations complémentaires en explorant deux aspects de corrélation, à savoir le graphe de relation structurelle et le graphe de relation sémantique. Le graphe de relation structurelle vise à capturer les corrélations à longue portée issues du contexte des objets, en développant une architecture basée sur le Transformer multi-échelle. Le graphe sémantique modélise dynamiquement les significations sémantiques des objets d'image avec des contraintes explicites sensibles au sens. De plus, nous intégrons également la relation structurelle apprise dans le graphe sémantique, construisant ainsi un graphe de relation conjoint pour des représentations robustes. Grâce à l'apprentissage collaboratif de ces deux graphes de relation efficaces, notre approche atteint un nouvel état de l'art sur deux benchmarks populaires de reconnaissance multi-étiquettes, à savoir les ensembles de données MS-COCO et VOC 2007.