HyperAIHyperAI

Command Palette

Search for a command to run...

Une étude empirique de CLIP pour la recherche de personnes basée sur le texte

Cao Min ; Bai Yang ; Zeng Ziyin ; Ye Mang ; Zhang Min

Résumé

La recherche de personnes basée sur le texte (TBPS) vise à récupérer des images de personnes en utilisant des descriptions en langage naturel. Récemment, Contrastive Language Image Pretraining (CLIP), un modèle pré-entraîné universel et de grande taille pour la vision-langue intermodale, a obtenu des performances remarquables dans diverses tâches intermodales en aval grâce à sa capacité puissante d'apprentissage sémantique intermodal. La TBPS, en tant que tâche de recherche intermodale fine, fait également face à une augmentation des recherches sur la TBPS basée sur CLIP. Afin d'explorer le potentiel du modèle pré-entraîné pour la vision-langue pour les tâches de TBPS en aval, cet article fait une première tentative pour mener une étude empirique complète de CLIP pour TBPS et contribue ainsi à fournir une base de référence TBPS-CLIP simple, incrémentielle mais robuste à la communauté TBPS. Nous reprenons les considérations critiques de conception sous CLIP, notamment l'augmentation de données et la fonction de perte. Le modèle, avec ces conceptions mentionnées précédemment et des astuces pratiques d'entraînement, peut atteindre des performances satisfaisantes sans aucun module sophistiqué. De plus, nous menons des expériences d'analyse pour évaluer la généralisation et la compression du modèle TBPS-CLIP, démontrant l'efficacité du TBPS-CLIP sous différents angles. Ce travail est destiné à fournir des insights empiriques et à mettre en lumière les futures recherches sur la TBPS basée sur CLIP.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp
Une étude empirique de CLIP pour la recherche de personnes basée sur le texte | Articles | HyperAI