HyperAIHyperAI
il y a 2 mois

CLIP-ReID : Exploitation d'un modèle vision-langue pour la ré-identification d'images sans étiquettes textuelles concrètes

Siyuan Li; Li Sun; Qingli Li
CLIP-ReID : Exploitation d'un modèle vision-langue pour la ré-identification d'images sans étiquettes textuelles concrètes
Résumé

Les modèles pré-entraînés de vision-langue tels que CLIP ont récemment montré des performances supérieures sur diverses tâches en aval, notamment la classification et la segmentation d'images. Cependant, dans le domaine de la réidentification d'images à grain fin (ReID), les étiquettes sont des indices, dépourvus de descriptions textuelles concrètes. Il reste donc à déterminer comment ces modèles peuvent être appliqués à ces tâches. Dans cet article, nous constatons d'abord que l'affinage simple du modèle visuel initialisé par l'encodeur d'images de CLIP a déjà permis d'obtenir des performances compétitives dans diverses tâches de ReID. Ensuite, nous proposons une stratégie en deux étapes pour faciliter une meilleure représentation visuelle. L'idée clé est d'exploiter pleinement la capacité de description intermodale dans CLIP grâce à un ensemble de jetons textuels apprenables pour chaque ID et de les fournir à l'encodeur de texte pour former des descriptions ambiguës. Dans la première phase d'entraînement, les encodeurs d'images et de texte issus de CLIP restent fixes, et seuls les jetons textuels sont optimisés à partir de zéro par la perte contrastive calculée au sein d'un lot. Dans la deuxième phase, les jetons textuels spécifiques aux ID et leur encodeur deviennent statiques, fournissant des contraintes pour l'affinage de l'encodeur d'images. Avec l'aide de la perte conçue pour la tâche en aval, l'encodeur d'images est capable de représenter les données sous forme de vecteurs dans l'espace d'emboîtement des caractéristiques avec précision. L'efficacité de la stratégie proposée est validée sur plusieurs jeux de données pour les tâches de réidentification des personnes ou des véhicules (ReID). Le code source est disponible à l'adresse suivante : https://github.com/Syliz517/CLIP-ReID.

CLIP-ReID : Exploitation d'un modèle vision-langue pour la ré-identification d'images sans étiquettes textuelles concrètes | Articles de recherche récents | HyperAI