il y a 2 mois

Une étude empirique de CLIP pour la recherche de personnes basée sur le texte

Cao, Min ; Bai, Yang ; Zeng, Ziyin ; Ye, Mang ; Zhang, Min

Résumé

La recherche de personnes basée sur le texte (TBPS) vise à récupérer des images de personnes en utilisant des descriptions en langage naturel. Récemment, Contrastive Language Image Pretraining (CLIP), un modèle pré-entraîné universel et de grande taille pour la vision-langue intermodale, a obtenu des performances remarquables dans diverses tâches intermodales en aval grâce à sa capacité puissante d'apprentissage sémantique intermodal. La TBPS, en tant que tâche de recherche intermodale fine, fait également face à une augmentation des recherches sur la TBPS basée sur CLIP. Afin d'explorer le potentiel du modèle pré-entraîné pour la vision-langue pour les tâches de TBPS en aval, cet article fait une première tentative pour mener une étude empirique complète de CLIP pour TBPS et contribue ainsi à fournir une base de référence TBPS-CLIP simple, incrémentielle mais robuste à la communauté TBPS. Nous reprenons les considérations critiques de conception sous CLIP, notamment l'augmentation de données et la fonction de perte. Le modèle, avec ces conceptions mentionnées précédemment et des astuces pratiques d'entraînement, peut atteindre des performances satisfaisantes sans aucun module sophistiqué. De plus, nous menons des expériences d'analyse pour évaluer la généralisation et la compression du modèle TBPS-CLIP, démontrant l'efficacité du TBPS-CLIP sous différents angles. Ce travail est destiné à fournir des insights empiriques et à mettre en lumière les futures recherches sur la TBPS basée sur CLIP.