HyperAIHyperAI
il y a 2 mois

Fusion de représentations sémantiquement conscientes à double perspective pour la reconnaissance d'images multi-étiquetées avec des étiquettes partielles

Pu, Tao ; Chen, Tianshui ; Wu, Hefeng ; Shi, Yukai ; Yang, Zhijing ; Lin, Liang
Fusion de représentations sémantiquement conscientes à double perspective pour la reconnaissance d'images multi-étiquetées avec des étiquettes partielles
Résumé

Bien que des progrès impressionnants aient été réalisés, les algorithmes actuels de reconnaissance d'images multi-étiquettes (MLR) dépendent fortement de grands ensembles de données étiquetés complètement, ce qui rend la collecte de ces ensembles de données extrêmement fastidieuse et laborieuse. L'entraînement des modèles de reconnaissance d'images multi-étiquettes avec des étiquettes partielles (MLR-PL) est une alternative, dans laquelle seules certaines étiquettes sont connues tandis que d'autres restent inconnues pour chaque image. Cependant, les algorithmes MLR-PL actuels s'appuient sur des modèles pré-entraînés de similarité d'images ou sur la mise à jour itérative des modèles de classification d'images pour générer des étiquettes pseudo pour les étiquettes inconnues. Par conséquent, ils nécessitent un certain nombre d'annotations et subissent inévitablement des baisses de performance évidentes, en particulier lorsque la proportion d'étiquettes connues est faible.Pour résoudre cette dilemme, nous proposons une méthode de fusion représentative biculturelle sensible au sens sémantique (DSRB) qui combine les représentations sémantiques spécifiques à la catégorie à différents niveaux de granularité entre différentes images, respectivement du point de vue des instances et des prototypes, afin de transférer l'information des étiquettes connues pour compléter les étiquettes inconnues. Plus précisément, un module de fusion représentative du point de vue des instances (IPRB) est conçu pour combiner les représentations des étiquettes connues dans une image avec celles des étiquettes inconnues correspondantes dans une autre image, afin de compléter ces étiquettes inconnues. Parallèlement, un module de fusion représentative du point de vue des prototypes (PPRB) est introduit pour apprendre des prototypes représentatifs plus stables pour chaque catégorie et combiner la représentation des étiquettes inconnues avec les prototypes des étiquettes correspondantes, d'une manière sensible à l'emplacement, afin de compléter ces étiquettes inconnues.Des expériences approfondies menées sur les ensembles de données MS-COCO, Visual Genome et Pascal VOC 2007 montrent que le DSRB proposé surpasse constamment les algorithmes actuels les plus performants dans toutes les configurations proportionnelles aux étiquettes connues.

Fusion de représentations sémantiquement conscientes à double perspective pour la reconnaissance d'images multi-étiquetées avec des étiquettes partielles | Articles de recherche récents | HyperAI