HyperAIHyperAI
il y a 2 mois

Alignement contextuel non local sur une représentation à grande échelle pour la recherche de personnes basée sur le texte

Gao, Chenyang ; Cai, Guanyu ; Jiang, Xinyang ; Zheng, Feng ; Zhang, Jun ; Gong, Yifei ; Peng, Pai ; Guo, Xiaowei ; Sun, Xing
Alignement contextuel non local sur une représentation à grande échelle pour la recherche de personnes basée sur le texte
Résumé

La recherche de personnes basée sur le texte vise à retrouver une personne cible dans une galerie d'images en utilisant une phrase descriptive de cette personne. Cette tâche est très complexe car l'écart modal rend l'extraction efficace de caractéristiques discriminantes plus difficile. De plus, la variance inter-classe des images de piétons et des descriptions est faible. Par conséquent, des informations complètes sont nécessaires pour aligner les indices visuels et textuels à toutes les échelles. La plupart des méthodes existantes ne considèrent que l'alignement local entre les images et les textes à une seule échelle (par exemple, uniquement à l'échelle globale ou uniquement à l'échelle partielle), puis construisent simplement l'alignement à chaque échelle séparément. Pour résoudre ce problème, nous proposons une méthode capable d'aligner de manière adaptative les caractéristiques visuelles et textuelles à toutes les échelles, appelée NAFS (i.e., Non-local Alignment over Full-Scale representations). Tout d'abord, une nouvelle structure de réseau en escalier est proposée pour extraire des caractéristiques d'image à toutes les échelles avec une meilleure localité. Ensuite, un BERT avec une attention contrainte par la localité est proposé pour obtenir des représentations des descriptions à différentes échelles. Enfin, au lieu d'aligner séparément les caractéristiques à chaque échelle, un nouveau mécanisme d'attention non locale contextuelle est appliqué pour découvrir simultanément des alignements latents à toutes les échelles. Les résultats expérimentaux montrent que notre méthode surpassent les méthodes de pointe actuelles de 5,53 % en termes de top-1 et de 5,35 % en termes de top-5 sur le jeu de données de recherche de personnes basée sur le texte. Le code source est disponible sur https://github.com/TencentYoutuResearch/PersonReID-NAFS