HyperAIHyperAI
il y a 15 jours

NAPReg : Noms comme régularisation par proxy pour des embeddings cross-modaux sensibles au sens

{Venu Govindaraju, Srirangaraj Setlur, Naji Mohamed Ali, Deen Dayal Mohan, Bhavin Jawade}
NAPReg : Noms comme régularisation par proxy pour des embeddings cross-modaux sensibles au sens
Résumé

La recherche à travers les modalités est une tâche fondamentale en vision et langage, aux applications pratiques très étendues. La correspondance texte-image constitue la forme la plus courante de recherche à travers les modalités : étant donné une base de données étendue d’images et une requête textuelle, l’objectif est de retrouver l’ensemble d’images les plus pertinentes. Les méthodes existantes utilisent des encodeurs doubles associés à un mécanisme d’attention et une fonction de perte de classement afin d’apprendre des embeddings pouvant être utilisés pour la recherche basée sur la similarité cosinus. Malgré les efforts déployés par ces méthodes pour réaliser une alignement sémantique entre les régions visuelles et les mots textuels grâce à des mécanismes d’attention spécifiques, l’objectif d’apprentissage ne fournit aucune supervision explicite pour imposer un tel alignement. Pour remédier à ce problème, nous proposons NAPReg, une nouvelle formulation de régularisation qui projette des entités sémantiques de haut niveau, à savoir les noms (nouns), dans l’espace d’embedding sous la forme de proxies apprenables partagés. Nous démontrons que cette formulation permet au mécanisme d’attention d’apprendre un alignement mot-région amélioré, tout en exploitant les informations de régions provenant d’autres échantillons afin de construire une représentation latente plus généralisable pour les concepts sémantiques. Des expériences menées sur trois jeux de données standard — MS-COCO, Flickr30k et Flickr8k — montrent que notre méthode atteint des résultats de pointe dans l’apprentissage métrique à travers les modalités pour les tâches de recherche texte-image et image-texte. Code : https://github.com/bhavinjawade/NAPReq

NAPReg : Noms comme régularisation par proxy pour des embeddings cross-modaux sensibles au sens | Articles de recherche récents | HyperAI