HyperAIHyperAI

Command Palette

Search for a command to run...

Vers une recherche unifiée de personnes basée sur le texte : Un benchmark à grande échelle pour la recherche multi-attributs et multilingue

Shuyu Yang Yinan Zhou Yaxiong Wang Yujiao Wu Li Zhu Zhedong Zheng

Résumé

Dans cet article, nous présentons un grand ensemble de données pour la recherche de personnes basée sur le texte, appelé MALS (Multi-Attribute and Language Search), et explorons la faisabilité d'effectuer un pré-entraînement simultanément sur les tâches de reconnaissance d'attributs et de correspondance image-texte. Plus précisément, MALS contient 1 510 330 paires image-texte, ce qui est environ 37,5 fois plus important que l'ensemble de données CUHK-PEDES couramment utilisé, et toutes les images sont annotées avec 27 attributs. En tenant compte des préoccupations liées à la vie privée et des coûts d'annotation, nous utilisons des modèles de diffusion prêts à l'emploi pour générer l'ensemble de données. Pour vérifier la faisabilité de l'apprentissage à partir des données générées, nous développons un nouveau cadre APTM (Attribute Prompt Learning and Text Matching Learning) qui prend en compte les connaissances partagées entre les attributs et le texte. Comme son nom l'indique, APTM comprend deux flux : un flux d'apprentissage par incitation d'attributs et un flux d'apprentissage de correspondance textuelle. (1) L'apprentissage par incitation d'attributs utilise des incitations d'attributs pour aligner les images et les attributs, ce qui améliore l'apprentissage de correspondance textuelle. (2) L'apprentissage de correspondance textuelle facilite l'apprentissage des représentations sur des détails fins-grainés, ce qui, à son tour, renforce l'apprentissage par incitation d'attributs. De nombreuses expériences montrent l'efficacité du pré-entraînement sur MALS, atteignant des performances de recherche d'avant-garde grâce à APTM sur trois benchmarks réels difficiles. En particulier, APTM réalise une amélioration constante de +6,96 %, +7,68 % et +16,95 % en termes de précision Recall@1 sur les ensembles de données CUHK-PEDES, ICFG-PEDES et RSTPReid respectivement.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp
Vers une recherche unifiée de personnes basée sur le texte : Un benchmark à grande échelle pour la recherche multi-attributs et multilingue | Articles | HyperAI