HyperAIHyperAI

Command Palette

Search for a command to run...

Alignement contextuel non local sur une représentation à grande échelle pour la recherche de personnes basée sur le texte

Chenyang Gao extsuperscript1,*, Guanyu Cai extsuperscript2, Xinyang Jiang extsuperscript2,†, Feng Zheng extsuperscript1, Jun Zhang extsuperscript2, Yifei Gong extsuperscript2, Pai Peng extsuperscript2, Xiaowei Guo extsuperscript2, Xing Sun extsuperscript2

Résumé

La recherche de personnes basée sur le texte vise à retrouver une personne cible dans une galerie d'images en utilisant une phrase descriptive de cette personne. Cette tâche est très complexe car l'écart modal rend l'extraction efficace de caractéristiques discriminantes plus difficile. De plus, la variance inter-classe des images de piétons et des descriptions est faible. Par conséquent, des informations complètes sont nécessaires pour aligner les indices visuels et textuels à toutes les échelles. La plupart des méthodes existantes ne considèrent que l'alignement local entre les images et les textes à une seule échelle (par exemple, uniquement à l'échelle globale ou uniquement à l'échelle partielle), puis construisent simplement l'alignement à chaque échelle séparément. Pour résoudre ce problème, nous proposons une méthode capable d'aligner de manière adaptative les caractéristiques visuelles et textuelles à toutes les échelles, appelée NAFS (i.e., Non-local Alignment over Full-Scale representations). Tout d'abord, une nouvelle structure de réseau en escalier est proposée pour extraire des caractéristiques d'image à toutes les échelles avec une meilleure localité. Ensuite, un BERT avec une attention contrainte par la localité est proposé pour obtenir des représentations des descriptions à différentes échelles. Enfin, au lieu d'aligner séparément les caractéristiques à chaque échelle, un nouveau mécanisme d'attention non locale contextuelle est appliqué pour découvrir simultanément des alignements latents à toutes les échelles. Les résultats expérimentaux montrent que notre méthode surpassent les méthodes de pointe actuelles de 5,53 % en termes de top-1 et de 5,35 % en termes de top-5 sur le jeu de données de recherche de personnes basée sur le texte. Le code source est disponible sur https://github.com/TencentYoutuResearch/PersonReID-NAFS


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp