Apprentissage d’un graphe de contexte cross-modale pour l’ancrage visuel

Le grounding visuel constitue un élément fondamental omniprésent dans de nombreuses tâches multimodales vision-langage, tout en restant un défi en raison des grandes variations des caractéristiques visuelles et linguistiques des entités à localiser, de l’effet contextuel fort et des ambiguïtés sémantiques qui en découlent. Les travaux antérieurs se concentrent généralement sur l’apprentissage de représentations pour des phrases individuelles, en tenant compte d’informations contextuelles limitées. Pour surmonter ces limitations, cette étude propose une représentation graphique guidée par le langage afin de capturer le contexte global des entités à localiser ainsi que leurs relations, et développe une stratégie de correspondance graphique intermodale pour la tâche de grounding visuel à plusieurs phrases. Plus précisément, nous introduisons un réseau neuronal graphique modulaire pour calculer des représentations sensibles au contexte des phrases et des propositions d’objets respectivement via une propagation de messages, suivie d’un module de correspondance basé sur les graphes afin de générer une localisation globalement cohérente des phrases à localiser. Nous entraînons l’ensemble du réseau neuronal graphique de manière conjointe selon une stratégie en deux étapes, et évaluons notre méthode sur le benchmark Flickr30K Entities. Des expériences étendues montrent que notre approche dépasse significativement les états de l’art antérieurs, démontrant ainsi l’efficacité de notre cadre de grounding. Le code est disponible à l’adresse suivante : https://github.com/youngfly11/LCMCG-PyTorch.