il y a 7 mois

Résumé

La recherche de personnes basée sur le texte vise à récupérer les images de piétons correspondant le mieux à une description textuelle donnée parmi un ensemble d'images (gallery). Les méthodes précédentes utilisent le mécanisme d'attention douce pour estimer les alignements sémantiques entre les régions d'une image et les mots correspondants dans une phrase. Toutefois, ces approches peuvent fusionner des caractéristiques multi-modales non pertinentes, entraînant un problème de redondance dans le processus de correspondance. Dans ce travail, nous proposons un nouveau réseau d'attention hiérarchique Gumbel, fondé sur l'algorithme de ré-paramétrisation Gumbel top-k, pour la recherche de personnes basée sur le texte. Plus précisément, ce modèle sélectionne de manière adaptative les régions d'image fortement pertinentes sur le plan sémantique ainsi que les mots ou phrases clés dans les textes, afin d’assurer une alignement précis et un calcul de similarité fiable. Cette stratégie de sélection rigoureuse permet de fusionner efficacement les caractéristiques multi-modales fortement pertinentes, atténuant ainsi le problème de redondance dans la correspondance. Par ailleurs, un algorithme de ré-paramétrisation Gumbel top-k est conçu comme estimateur de gradient à faible variance et sans biais, permettant de traiter de manière end-to-end le problème de discrétisation inhérent au mécanisme d’attention rigoureuse. En outre, le modèle met en œuvre une stratégie d’alignement adaptatif hiérarchique à trois niveaux de granularité : mot, phrase et phrase entière, afin d’atteindre une correspondance fine. Les résultats expérimentaux étendus démontrent une performance au niveau de l’état de l’art. Par rapport à la méthode existante la plus performante, nous obtenons des améliorations relatives de 8,24 % au classement Rank-1 et de 7,6 % en mAP pour la tâche de recherche texte-vers-image, ainsi que de 5,58 % au classement Rank-1 et de 6,3 % en mAP pour la tâche de recherche image-vers-texte, sur le jeu de données CUHK-PEDES.

PDF source

Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA

GPU prêts à l’emploi

Tarifs les plus avantageux

Commencer Voir les tarifs

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

HyperAI

il y a 7 mois

Multimodal

Vision Par Ordinateur

Représentation Multimodale

Multimodal

Vision Par Ordinateur

Tâche

Tao Mei Zheng-Jun Zha Jiawei Liu Wu Liu Kecheng Zheng

Résumé

PDF source

Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA

GPU prêts à l’emploi

Tarifs les plus avantageux

Commencer Voir les tarifs

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

HyperAI

il y a 7 mois

Multimodal

Vision Par Ordinateur

Représentation Multimodale

Multimodal

Vision Par Ordinateur

Tâche

Tao Mei Zheng-Jun Zha Jiawei Liu Wu Liu Kecheng Zheng

Résumé

PDF source

Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA

GPU prêts à l’emploi

Tarifs les plus avantageux

Commencer Voir les tarifs

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

Command Palette

Réseau hiérarchique d'attention Gumbel pour la recherche de personnes basée sur le texte

Tao Mei Zheng-Jun Zha Jiawei Liu Wu Liu Kecheng Zheng

Résumé

Créer de l'IA avec l'IA

HyperAI Newsletters

Command Palette

Réseau hiérarchique d'attention Gumbel pour la recherche de personnes basée sur le texte

Tao Mei Zheng-Jun Zha Jiawei Liu Wu Liu Kecheng Zheng

Résumé

Créer de l'IA avec l'IA

HyperAI Newsletters

Command Palette

Réseau hiérarchique d'attention Gumbel pour la recherche de personnes basée sur le texte

Tao Mei Zheng-Jun Zha Jiawei Liu Wu Liu Kecheng Zheng

Résumé

Créer de l'IA avec l'IA

HyperAI Newsletters