Espace Sémantique Commun Multimodal et Multiniveau pour l'Ancrage Image-Phrase

Nous abordons le problème de l'ancrage de phrases en apprenant un espace sémantique commun à plusieurs niveaux partagé par les modalités textuelle et visuelle. Nous exploitons plusieurs niveaux de cartes de caractéristiques d'un Réseau Neuronal Convolutif Profond, ainsi que des plongements (embeddings) de mots et de phrases contextualisés extraits d'un modèle de langage basé sur les caractères. Après avoir appliqué des transformations non linéaires dédiées aux caractéristiques visuelles à chaque niveau, aux plongements de mots et aux plongements de phrases, nous obtenons plusieursinstanciations de notre espace sémantique commun dans lesquelles des comparaisons entre tout texte cible et le contenu visuel sont effectuées à l'aide de la similarité cosinus. Nous guidons le modèle par un mécanisme d'attention multimodale à plusieurs niveaux qui produit des caractéristiques visuelles attentives à chaque niveau. Le meilleur niveau est choisi pour être comparé avec le contenu textuel afin d'optimiser les scores de pertinence des paires image-phrase du sol véridique (ground truth). Des expériences menées sur trois jeux de données publiquement disponibles montrent des gains significatifs de performance (de 20% à 60% relatifs) par rapport à l'état de l'art en localisation de phrases et établissent un nouveau record de performance sur ces jeux de données. Nous fournissons une étude d'ablation détaillée pour montrer la contribution de chaque élément de notre approche et mettons notre code à disposition sur GitHub.