Réseau hiérarchique d'attention Gumbel pour la recherche de personnes basée sur le texte
La recherche de personnes basée sur le texte vise à récupérer les images de piétons correspondant le mieux à une description textuelle donnée parmi un ensemble d'images (gallery). Les méthodes précédentes utilisent le mécanisme d'attention douce pour estimer les alignements sémantiques entre les régions d'une image et les mots correspondants dans une phrase. Toutefois, ces approches peuvent fusionner des caractéristiques multi-modales non pertinentes, entraînant un problème de redondance dans le processus de correspondance. Dans ce travail, nous proposons un nouveau réseau d'attention hiérarchique Gumbel, fondé sur l'algorithme de ré-paramétrisation Gumbel top-k, pour la recherche de personnes basée sur le texte. Plus précisément, ce modèle sélectionne de manière adaptative les régions d'image fortement pertinentes sur le plan sémantique ainsi que les mots ou phrases clés dans les textes, afin d’assurer une alignement précis et un calcul de similarité fiable. Cette stratégie de sélection rigoureuse permet de fusionner efficacement les caractéristiques multi-modales fortement pertinentes, atténuant ainsi le problème de redondance dans la correspondance. Par ailleurs, un algorithme de ré-paramétrisation Gumbel top-k est conçu comme estimateur de gradient à faible variance et sans biais, permettant de traiter de manière end-to-end le problème de discrétisation inhérent au mécanisme d’attention rigoureuse. En outre, le modèle met en œuvre une stratégie d’alignement adaptatif hiérarchique à trois niveaux de granularité : mot, phrase et phrase entière, afin d’atteindre une correspondance fine. Les résultats expérimentaux étendus démontrent une performance au niveau de l’état de l’art. Par rapport à la méthode existante la plus performante, nous obtenons des améliorations relatives de 8,24 % au classement Rank-1 et de 7,6 % en mAP pour la tâche de recherche texte-vers-image, ainsi que de 5,58 % au classement Rank-1 et de 6,3 % en mAP pour la tâche de recherche image-vers-texte, sur le jeu de données CUHK-PEDES.