Apprentissage de graphe à motifs désentrelacés et sensibles aux motifs pour l'alignement de phrases

Dans cet article, nous proposons un nouveau cadre d’apprentissage de graphes pour la localisation de phrases dans les images. À la différence des approches existantes, qui évoluent du modèle séquentiel vers le modèle de graphe dense et capturent uniquement un contexte grossier, mais peinent à distinguer la diversité des contextes entre les phrases et les régions d’image, nous accordons une attention particulière aux différents motifs implicites dans le contexte du graphe scénique. Ainsi, nous introduisons le réseau de graphes désentrelacés (disentangled graph network), conçu pour intégrer des informations contextuelles sensibles aux motifs dans les représentations. En outre, nous appliquons des stratégies interventionnelles au niveau des caractéristiques et de la structure afin de renforcer et généraliser les représentations. Enfin, un réseau d’attention cross-modale est utilisé pour fusionner les caractéristiques intra-modales, permettant ainsi de calculer la similarité entre chaque phrase et les régions de l’image afin de sélectionner celle qui est le mieux localisée. Nous validons l’efficacité du réseau de graphes désentrelacés et interventionnel (DIGN) à l’aide d’une série d’études d’ablation, et notre modèle atteint des performances de pointe sur les benchmarks Flickr30K Entities et ReferIt Game.