il y a 8 mois

Résumé

La recherche de personnes par texte à image vise à identifier la personne cible en se basant sur une requête de description textuelle donnée. Le défi principal consiste à apprendre l'alignement des modalités visuelle et textuelle dans un espace latent commun. Les travaux antérieurs ont tenté de relever ce défi en utilisant des modèles unimodaux pré-entraînés séparément pour extraire les caractéristiques visuelles et textuelles. Cependant, ces approches manquent des capacités d'alignement sous-jacentes nécessaires pour faire correspondre efficacement les données multimodales. De plus, ces travaux utilisent des informations a priori pour explorer des alignements explicites de parties, ce qui peut entraîner une distorsion des informations intra-modales. Pour atténuer ces problèmes, nous présentons IRRA : un cadre d'inférence et d'alignement implicite des relations intermodales qui apprend les relations entre les jetons visuels et textuels locaux et améliore le couplage global image-texte sans nécessiter une supervision a priori supplémentaire. Plus précisément, nous concevons d'abord un module d'Inférence Implicite des Relations dans un paradigme de modélisation linguistique masquée. Ceci permet une interaction intermodale en intégrant les indices visuels aux jetons textuels grâce à un encodeur d'interaction multimodale intermodale. Ensuite, pour aligner globalement les plongements (embeddings) visuels et textuels, nous proposons l'Appariement de la Distribution de Similarité afin de minimiser la divergence Kullback-Leibler entre les distributions de similarité image-texte et les distributions d'appariement normalisées des étiquettes. La méthode proposée atteint de nouveaux résultats d'état de l'art sur trois jeux de données publics, avec une marge notable d'environ 3% à 9% en termes de précision au rang 1 par rapport aux méthodes précédentes.

PDF source Voir le code

Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA

GPU prêts à l’emploi

Tarifs les plus avantageux

Commencer Voir les tarifs

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

HyperAI

il y a 8 mois

Représentation Multimodale

Texte Vers Image

Compréhension D'images

Multimodal

Vision Par Ordinateur

Tâche

Ding Jiang Mang Ye

Résumé

PDF source Voir le code

Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA

GPU prêts à l’emploi

Tarifs les plus avantageux

Commencer Voir les tarifs

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

HyperAI

il y a 8 mois

Représentation Multimodale

Texte Vers Image

Compréhension D'images

Multimodal

Vision Par Ordinateur

Tâche

Ding Jiang Mang Ye

Résumé

PDF source Voir le code

Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA

GPU prêts à l’emploi

Tarifs les plus avantageux

Commencer Voir les tarifs

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

Command Palette

Raisonnement et alignement des relations implicites inter-modales pour la recherche d'individus par texte-à-image

Ding Jiang Mang Ye

Résumé

Créer de l'IA avec l'IA

HyperAI Newsletters

Command Palette

Raisonnement et alignement des relations implicites inter-modales pour la recherche d'individus par texte-à-image

Ding Jiang Mang Ye

Résumé

Créer de l'IA avec l'IA

HyperAI Newsletters

Command Palette

Raisonnement et alignement des relations implicites inter-modales pour la recherche d'individus par texte-à-image

Ding Jiang Mang Ye

Résumé

Créer de l'IA avec l'IA

HyperAI Newsletters