il y a 6 mois

Résumé

L’appariement image-texte joue un rôle fondamental dans la liaison entre la vision et le langage, et des progrès significatifs ont été réalisés en exploitant l’alignement global entre une image et une phrase, ou les alignements locaux entre des régions d’image et des mots. Toutefois, la manière dont ces alignements peuvent être optimisés pour estimer des scores d’appariement plus précis reste encore peu explorée. Dans cet article, nous proposons un nouveau réseau, nommé Similarity Graph Reasoning and Attention Filtration (SGRAF), dédié à l’appariement image-texte. Plus précisément, des représentations de similarité basées sur des vecteurs sont d’abord apprises afin de caractériser de manière plus complète les alignements locaux et globaux. Ensuite, le module de raisonnement graphique de similarité (SGR), fondé sur un réseau neuronal à convolution de graphe, est introduit pour estimer des similarités conscientes des relations en combinant à la fois les alignements locaux et globaux. Un module supplémentaire, nommé filtration d’attention de similarité (SAF), est développé pour intégrer efficacement ces alignements en se concentrant sélectivement sur les alignements significatifs et représentatifs, tout en éliminant les perturbations provenant des alignements non pertinents. Nous démontrons l’efficacité de la méthode proposée, qui atteint des performances de pointe sur les jeux de données Flickr30K et MSCOCO, ainsi que l’interprétabilité remarquable des modules SGR et SAF, grâce à des expérimentations qualitatives étendues et des analyses détaillées.

PDF source

Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA

GPU prêts à l’emploi

Tarifs les plus avantageux

Commencer Voir les tarifs

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

HyperAI

il y a 6 mois

Multimodal

Représentation Multimodale

Réseau De Neurones Convolutif

Approche/Framework

Multimodal

Tâche

Haiwen Diao Ying Zhang Lin Ma Huchuan Lu

Résumé

PDF source

Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA

GPU prêts à l’emploi

Tarifs les plus avantageux

Commencer Voir les tarifs

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

HyperAI

il y a 6 mois

Multimodal

Représentation Multimodale

Réseau De Neurones Convolutif

Approche/Framework

Multimodal

Tâche

Haiwen Diao Ying Zhang Lin Ma Huchuan Lu

Résumé

PDF source

Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA

GPU prêts à l’emploi

Tarifs les plus avantageux

Commencer Voir les tarifs

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

Command Palette

Raisonnement par similarité et filtration pour l’alignement image-texte

Haiwen Diao Ying Zhang Lin Ma Huchuan Lu

Résumé

Créer de l'IA avec l'IA

HyperAI Newsletters

Command Palette

Raisonnement par similarité et filtration pour l’alignement image-texte

Haiwen Diao Ying Zhang Lin Ma Huchuan Lu

Résumé

Créer de l'IA avec l'IA

HyperAI Newsletters

Command Palette

Raisonnement par similarité et filtration pour l’alignement image-texte

Haiwen Diao Ying Zhang Lin Ma Huchuan Lu

Résumé

Créer de l'IA avec l'IA

HyperAI Newsletters