HyperAIHyperAI

Command Palette

Search for a command to run...

Raisonnement par similarité et filtration pour l’alignement image-texte

Haiwen Diao Ying Zhang Lin Ma Huchuan Lu

Résumé

L’appariement image-texte joue un rôle fondamental dans la liaison entre la vision et le langage, et des progrès significatifs ont été réalisés en exploitant l’alignement global entre une image et une phrase, ou les alignements locaux entre des régions d’image et des mots. Toutefois, la manière dont ces alignements peuvent être optimisés pour estimer des scores d’appariement plus précis reste encore peu explorée. Dans cet article, nous proposons un nouveau réseau, nommé Similarity Graph Reasoning and Attention Filtration (SGRAF), dédié à l’appariement image-texte. Plus précisément, des représentations de similarité basées sur des vecteurs sont d’abord apprises afin de caractériser de manière plus complète les alignements locaux et globaux. Ensuite, le module de raisonnement graphique de similarité (SGR), fondé sur un réseau neuronal à convolution de graphe, est introduit pour estimer des similarités conscientes des relations en combinant à la fois les alignements locaux et globaux. Un module supplémentaire, nommé filtration d’attention de similarité (SAF), est développé pour intégrer efficacement ces alignements en se concentrant sélectivement sur les alignements significatifs et représentatifs, tout en éliminant les perturbations provenant des alignements non pertinents. Nous démontrons l’efficacité de la méthode proposée, qui atteint des performances de pointe sur les jeux de données Flickr30K et MSCOCO, ainsi que l’interprétabilité remarquable des modules SGR et SAF, grâce à des expérimentations qualitatives étendues et des analyses détaillées.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp