il y a 11 jours

Apprentissage par contraste prototypique basé sur CLIP pour le fine-tuning de la réidentification d'objets

Jiachen Li, Xiaojin Gong

Résumé

Ce travail vise à adapter les grands modèles pré-entraînés vision-langage, tels que le modèle de pré-entraînement contraste image-langage (CLIP), afin d’améliorer les performances de la réidentification d’objets (Re-ID) dans diverses configurations de supervision. Bien que l’apprentissage de prompts ait permis à une méthode récente, nommée CLIP-ReID, d’obtenir des résultats prometteurs, les mécanismes sous-jacents et la nécessité de l’apprentissage de prompts restent peu clairs en raison de l’absence de labels sémantiques dans les tâches de Re-ID. Dans ce travail, nous analysons d’abord le rôle de l’apprentissage de prompts dans CLIP-ReID et identifions ses limites. À partir de ces investigations, nous proposons une approche simple mais efficace pour adapter CLIP à la réidentification supervisée d’objets. Notre méthode fine-tune directement l’encodeur d’images de CLIP en utilisant une fonction de perte basée sur un apprentissage contrastif prototypique (PCL), éliminant ainsi la nécessité d’un apprentissage de prompts. Les résultats expérimentaux sur des jeux de données de réidentification de personnes et de véhicules démontrent la compétitivité de notre méthode par rapport à CLIP-ReID. En outre, nous étendons notre approche de fine-tuning de CLIP basée sur PCL aux scénarios non supervisés, où nous atteignons des performances de pointe.