Mélange de représentations conscientes du sens pour la reconnaissance d'images multi-étiquetées avec des étiquettes partielles

L'entraînement de modèles de reconnaissance d'images à étiquettes multiples avec des étiquettes partielles, où seules certaines étiquettes sont connues tandis que d'autres restent inconnues pour chaque image, est une tâche considérablement complexe et pratique. Pour relever ce défi, les algorithmes actuels s'appuient principalement sur l'entraînement préalable de modèles de classification ou de similarité afin de générer des étiquettes pseudo pour les étiquettes inconnues. Cependant, ces algorithmes nécessitent un nombre suffisant d'annotations à étiquettes multiples pour entraîner les modèles, ce qui entraîne des performances médiocres, en particulier lorsque la proportion d'étiquettes connues est faible.Dans cette recherche, nous proposons de combiner les représentations spécifiques à la catégorie entre différentes images afin de transférer les informations des étiquettes connues pour compléter les étiquettes inconnues. Cette approche permet d'éliminer le besoin d'utiliser des modèles pré-entraînés et donc ne dépend pas d'un nombre suffisant d'annotations. À cet effet, nous avons conçu un cadre unifié de fusion de représentations sémantiques (SARB) qui exploite les représentations sémantiques au niveau des instances et au niveau des prototypes pour compléter les étiquettes inconnues par deux modules complémentaires : 1) un module de fusion de représentations au niveau des instances (ILRB) combine les représentations des étiquettes connues dans une image avec celles des étiquettes inconnues dans une autre image pour compléter ces dernières. 2) un module de fusion de représentations au niveau des prototypes (PLRB) apprend des prototypes de représentation plus stables pour chaque catégorie et combine la représentation des étiquettes inconnues avec celle des prototypes correspondants pour compléter ces étiquettes.Des expériences approfondies sur les jeux de données MS-COCO, Visual Genome et Pascal VOC 2007 montrent que le cadre SARB proposé obtient une performance supérieure aux concurrents actuels dans toutes les configurations de proportion d'étiquettes connues, soit avec une amélioration du mAP de 4,6 %, 4 % et 2,2 % sur ces trois jeux de données lorsque la proportion d'étiquettes connues est de 10 %. Les codes sources sont disponibles à l'adresse suivante : https://github.com/HCPLab-SYSU/HCP-MLR-PL.