HyperAIHyperAI

Command Palette

Search for a command to run...

Réseau hiérarchique d'attention Gumbel pour la recherche de personnes basée sur le texte

Tao Mei Zheng-Jun Zha Jiawei Liu Wu Liu Kecheng Zheng

Résumé

La recherche de personnes basée sur le texte vise à récupérer les images de piétons correspondant le mieux à une description textuelle donnée parmi un ensemble d'images (gallery). Les méthodes précédentes utilisent le mécanisme d'attention douce pour estimer les alignements sémantiques entre les régions d'une image et les mots correspondants dans une phrase. Toutefois, ces approches peuvent fusionner des caractéristiques multi-modales non pertinentes, entraînant un problème de redondance dans le processus de correspondance. Dans ce travail, nous proposons un nouveau réseau d'attention hiérarchique Gumbel, fondé sur l'algorithme de ré-paramétrisation Gumbel top-k, pour la recherche de personnes basée sur le texte. Plus précisément, ce modèle sélectionne de manière adaptative les régions d'image fortement pertinentes sur le plan sémantique ainsi que les mots ou phrases clés dans les textes, afin d’assurer une alignement précis et un calcul de similarité fiable. Cette stratégie de sélection rigoureuse permet de fusionner efficacement les caractéristiques multi-modales fortement pertinentes, atténuant ainsi le problème de redondance dans la correspondance. Par ailleurs, un algorithme de ré-paramétrisation Gumbel top-k est conçu comme estimateur de gradient à faible variance et sans biais, permettant de traiter de manière end-to-end le problème de discrétisation inhérent au mécanisme d’attention rigoureuse. En outre, le modèle met en œuvre une stratégie d’alignement adaptatif hiérarchique à trois niveaux de granularité : mot, phrase et phrase entière, afin d’atteindre une correspondance fine. Les résultats expérimentaux étendus démontrent une performance au niveau de l’état de l’art. Par rapport à la méthode existante la plus performante, nous obtenons des améliorations relatives de 8,24 % au classement Rank-1 et de 7,6 % en mAP pour la tâche de recherche texte-vers-image, ainsi que de 5,58 % au classement Rank-1 et de 6,3 % en mAP pour la tâche de recherche image-vers-texte, sur le jeu de données CUHK-PEDES.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp