HyperAIHyperAI
il y a 2 mois

Voir plus fin, voir plus : Alignement modalité implicite pour la recherche de personnes basée sur le texte

Shu, Xiujun ; Wen, Wei ; Wu, Haoqian ; Chen, Keyu ; Song, Yiran ; Qiao, Ruizhi ; Ren, Bo ; Wang, Xiao
Voir plus fin, voir plus : Alignement modalité implicite pour la recherche de personnes basée sur le texte
Résumé

La recherche de personnes basée sur le texte vise à identifier une personne en fonction d'une description textuelle. L'objectif principal est d'apprendre une représentation commune dans un espace latent entre les modalités visuelle et textuelle. Pour atteindre cet objectif, les travaux existants utilisent soit des méthodes de segmentation pour obtenir des alignements intermodaux explicites, soit des techniques d'attention pour explorer des alignements saillants. Ces méthodes présentent deux inconvénients : 1) L'étiquetage des alignements intermodaux est fastidieux et chronophage. 2) Les méthodes d'attention peuvent explorer des alignements intermodaux saillants mais risquent d'ignorer certains paires subtiles et précieuses.Pour atténuer ces problèmes, nous introduisons un cadre de travail implicite visuel-textuel (IVT) pour la recherche de personnes basée sur le texte. Contrairement aux modèles précédents, IVT utilise un seul réseau pour apprendre la représentation des deux modalités, ce qui favorise l'interaction visuelle-textuelle. Afin d'explorer l'alignement sémantique fine-grained, nous proposons deux paradigmes d'alignement sémantique implicite : l'alignement multiniveau (MLA) et le modèle de masquage bidirectionnel (BMM). Le module MLA explore des correspondances plus fines au niveau des phrases, des phrases et des mots, tandis que le module BMM vise à découvrir plus d'alignements sémantiques entre les modalités visuelle et textuelle.Des expériences approfondies ont été menées pour évaluer le cadre IVT proposé sur des jeux de données publics, à savoir CUHK-PEDES, RSTPReID et ICFG-PEDES. Même sans alignement explicite des parties du corps, notre approche atteint tout de même des performances de pointe. Le code source est disponible à l'adresse suivante : https://github.com/TencentYoutuResearch/PersonRetrieval-IVT.

Voir plus fin, voir plus : Alignement modalité implicite pour la recherche de personnes basée sur le texte | Articles de recherche récents | HyperAI