il y a 2 mois

Modèle de Suggestion Générative pour la Localisation d'Objets Faiblement Supervisée

Yuzhong Zhao; Qixiang Ye; Weijia Wu; Chunhua Shen; Fang Wan

Résumé

La localisation d'objets faiblement supervisée (WSOL) reste un défi lors de l'apprentissage de modèles de localisation d'objets à partir de labels de catégories d'images. Les méthodes conventionnelles qui entraînent des modèles d'activation de manière discriminante ignorent les parties représentatives mais moins discriminantes des objets. Dans cette étude, nous proposons un modèle de prompt génératif (GenPromp), définissant la première chaîne de traitement générative pour localiser les parties d'objets moins discriminantes en formulant le WSOL comme une procédure de débruitage d'image conditionnelle. Lors de l'entraînement, GenPromp convertit les labels de catégories d'images en plongements (embeddings) apprenables de prompts, qui sont ensuite alimentés à un modèle génératif pour récupérer conditionnellement l'image d'entrée bruitée et apprendre des plongements représentatifs. Lors de l'inférence, GenPromp combine les plongements représentatifs avec des plongements discriminants (interrogés auprès d'un modèle vision-langue prêt à l'emploi) afin d'améliorer à la fois la capacité représentative et discriminante. Les plongements combinés sont finalement utilisés pour générer des cartes d'attention multicouches de haute qualité, facilitant ainsi la localisation de l'étendue complète des objets. Des expériences menées sur CUB-200-2011 et ILSVRC montrent que GenPromp dépasse respectivement les meilleurs modèles discriminants de 5,2 % et 5,6 % (Top-1 Loc), établissant une base solide pour le WSOL avec le modèle génératif. Le code est disponible sur https://github.com/callsys/GenPromp.