HyperAIHyperAI
il y a 2 mois

Raisonnement et alignement des relations implicites inter-modales pour la recherche d'individus par texte-à-image

Jiang, Ding ; Ye, Mang
Raisonnement et alignement des relations implicites inter-modales pour la recherche d'individus par texte-à-image
Résumé

La recherche de personnes par texte à image vise à identifier la personne cible en se basant sur une requête de description textuelle donnée. Le défi principal consiste à apprendre l'alignement des modalités visuelle et textuelle dans un espace latent commun. Les travaux antérieurs ont tenté de relever ce défi en utilisant des modèles unimodaux pré-entraînés séparément pour extraire les caractéristiques visuelles et textuelles. Cependant, ces approches manquent des capacités d'alignement sous-jacentes nécessaires pour faire correspondre efficacement les données multimodales. De plus, ces travaux utilisent des informations a priori pour explorer des alignements explicites de parties, ce qui peut entraîner une distorsion des informations intra-modales. Pour atténuer ces problèmes, nous présentons IRRA : un cadre d'inférence et d'alignement implicite des relations intermodales qui apprend les relations entre les jetons visuels et textuels locaux et améliore le couplage global image-texte sans nécessiter une supervision a priori supplémentaire. Plus précisément, nous concevons d'abord un module d'Inférence Implicite des Relations dans un paradigme de modélisation linguistique masquée. Ceci permet une interaction intermodale en intégrant les indices visuels aux jetons textuels grâce à un encodeur d'interaction multimodale intermodale. Ensuite, pour aligner globalement les plongements (embeddings) visuels et textuels, nous proposons l'Appariement de la Distribution de Similarité afin de minimiser la divergence Kullback-Leibler entre les distributions de similarité image-texte et les distributions d'appariement normalisées des étiquettes. La méthode proposée atteint de nouveaux résultats d'état de l'art sur trois jeux de données publics, avec une marge notable d'environ 3% à 9% en termes de précision au rang 1 par rapport aux méthodes précédentes.

Raisonnement et alignement des relations implicites inter-modales pour la recherche d'individus par texte-à-image | Articles de recherche récents | HyperAI